CmdCaliper-large开源命令行嵌入模型 - 免费助力命令行相关应用开发

首页

Cmdcaliper Large

由 CyCraftAI 开发

CmdCaliper是首个专为命令行嵌入设计的嵌入模型系列，由CyCraft AI实验室开发。

文本嵌入

Safetensors

#命令行语义嵌入 #安全研究专用 #高精度相似度

下载量 74

发布时间 : 9/25/2024

模型简介

CmdCaliper模型专注于命令行嵌入设计，提供三种不同规模的模型（large、base、small），适用于不同硬件资源限制。

模型特点

专为命令行设计

首个专注于命令行嵌入的模型，针对命令行语义进行优化。

多规模选择

提供large、base、small三种规模的模型，适应不同硬件资源需求。

高性能

在各类命令行专用任务上超越参数量超过10倍的最先进句子嵌入模型。

模型能力

命令行语义理解

命令行相似度计算

命令行特征提取

使用案例

安全研究

恶意命令行检测

通过分析命令行语义相似度识别潜在恶意命令

提高恶意命令检测准确率

命令行行为分析

对系统日志中的命令行进行聚类和分析

发现异常命令行模式

系统管理

命令行推荐

基于语义相似度推荐相关命令行

提高管理员工作效率

🚀 CmdCaliper-large

CmdCaliper模型是由CyCraft AI Lab开发的首个专门为命令行嵌入设计的嵌入模型。评估结果表明，即使是参数约3000万的CmdCaliper最小版本，在各种特定命令行任务中，也能超越参数多10倍以上（3.35亿）的最先进句子嵌入模型。CmdCaliper提供了三种不同大小的模型，为不同硬件资源限制提供了灵活的选择。

🚀 快速开始

CmdCaliper模型专为命令行嵌入设计，具有出色的性能。你可以通过以下链接访问相关资源：

✨ 主要特性

针对性设计：首个专门为命令行嵌入设计的嵌入模型。
高性能表现：小版本模型在特定命令行任务中能超越参数多10倍以上的先进模型。
多种选择：提供CmdCaliper-large、CmdCaliper-base和CmdCaliper-small三种不同大小的模型，适应不同硬件资源。

📊 评估指标

方法	模型参数	MRR @3	MRR @10	Top @3	Top @10
莱文斯坦距离	-	71.23	72.45	74.99	81.83
Word2Vec	-	45.83	46.93	48.49	54.86
E5-small	小型 (0.03B)	81.59	82.6	84.97	90.59
GTE-small	小型 (0.03B)	82.35	83.28	85.39	90.84
CmdCaliper-small	小型 (0.03B)	86.81	87.78	89.21	94.76
BGE-en-base	基础 (0.11B)	79.49	80.41	82.33	87.39
E5-base	基础 (0.11B)	83.16	84.07	86.14	91.56
GTR-base	基础 (0.11B)	81.55	82.51	84.54	90.1
GTE-base	基础 (0.11B)	78.2	79.07	81.22	86.14
CmdCaliper-base	基础 (0.11B)	87.56	88.47	90.27	95.26
BGE-en-large	大型 (0.34B)	84.11	84.92	86.64	91.09
E5-large	大型 (0.34B)	84.12	85.04	87.32	92.59
GTR-large	大型 (0.34B)	88.09	88.68	91.27	94.58
GTE-large	大型 (0.34B)	84.26	85.03	87.14	91.41
CmdCaliper-large	大型 (0.34B)	89.12	89.91	91.45	95.65

💻 使用示例

基础用法

HuggingFace Transformers

import torch.nn.functional as F
from torch import Tensor
from transformers import AutoTokenizer, AutoModel

def average_pool(last_hidden_states: Tensor,
                 attention_mask: Tensor) -> Tensor:
    last_hidden = last_hidden_states.masked_fill(~attention_mask[..., None].bool(), 0.0)
    return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]

input_texts = [
    'cronjob schedule daily 00:00 ./program.exe',
    'schtasks /create /tn "TaskName" /tr "C:\program.exe" /sc daily /st 00:00',
    'xcopy C:\Program Files (x86) E:\Program Files /E /H /K /O /X'
]

tokenizer = AutoTokenizer.from_pretrained("CyCraftAI/CmdCaliper-base")
model = AutoModel.from_pretrained("CyCraftAI/CmdCaliper-base")

# Tokenize the input texts
batch_dict = tokenizer(input_texts, max_length=512, padding=True, truncation=True, return_tensors='pt')

outputs = model(**batch_dict)
embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask'])

# (Optionally) normalize embeddings
embeddings = F.normalize(embeddings, p=2, dim=1)
scores = (embeddings[:1] @ embeddings[1:].T) * 100
print(scores.tolist())

Sentence Transformers

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("CyCraftAI/CmdCaliper-base")
# Run inference
sentences = [
    'cronjob schedule daily 00:00 ./program.exe',
    'schtasks /create /tn "TaskName" /tr "C:\program.exe" /sc daily /st 00:00',
    'xcopy C:\Program Files (x86) E:\Program Files /E /H /K /O /X'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

⚠️ 局限性

⚠️ 重要提示

该模型仅专注于Windows命令行。此外，任何长文本将被截断为最多512个标记。

📄 引用

@inproceedings{huang2024cmdcaliper,
  title={CmdCaliper: A Semantic-Aware Command-Line Embedding Model and Dataset for Security Research},
  author={SianYao Huang, ChengLin Yang, CheYu Lin, and ChunYing Huang},
  booktitle={Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing,
  year={2024}
}