🚀 MITRE-v15战术BERT大小写敏感模型
这是一个基于mitre-bert-base-cased在MITRE ATT&CK版本15程序数据集上进行微调的模型。该模型在评估数据集上实现了以下指标:
🚀 快速开始
本模型是基于Transformer编码器的文本分类模型,可用于识别句子在MITRE ATT&CK框架中所属的战术。
✨ 主要特性
- 基于MITRE ATT&CK版本15程序数据集对基础模型进行微调。
- 可用于文本分类任务,识别句子在MITRE ATT&CK框架中的战术归属。
- 一个句子或攻击可能属于多种战术。
📦 安装指南
暂未提及安装相关内容,若需使用可参考后续使用示例中的依赖库安装。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
import numpy as np
model_id = "sarahwei/MITRE-tactic-bert-case-based"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForSequenceClassification.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
)
question = 'An attacker performs a SQL injection.'
input_ids = tokenizer(question,return_tensors="pt")
outputs = model(**input_ids)
logits = outputs.logits
sigmoid = torch.nn.Sigmoid()
probs = sigmoid(logits.squeeze().cpu())
predictions = np.zeros(probs.shape)
predictions[np.where(probs >= 0.5)] = 1
predicted_labels = [model.config.id2label[idx] for idx, label in enumerate(predictions) if label == 1.0]
📚 详细文档
预期用途与限制
可以使用这个微调后的模型进行文本分类。其目标是识别句子在MITRE ATT&CK框架中所属的战术。一个句子或一次攻击可能属于多种战术。
请注意,这个模型主要是针对网络安全的文本分类进行微调的。如果句子与攻击无关,其性能可能不佳。
训练过程
训练参数
属性 |
详情 |
学习率 |
5e-05 |
训练批次大小 |
8 |
评估批次大小 |
8 |
随机种子 |
0 |
优化器 |
Adam(β1=0.9,β2=0.999,ε=1e-08) |
学习率调度器类型 |
线性 |
训练轮数 |
10 |
热身比例 |
0.01 |
权重衰减 |
0.001 |
训练结果
步骤 |
训练损失 |
验证损失 |
F1值 |
ROC AUC值 |
准确率 |
100 |
0.409400 |
0.142982 |
0.740000 |
0.803830 |
0.610000 |
200 |
0.106500 |
0.093503 |
0.818182 |
0.868382 |
0.720000 |
300 |
0.070200 |
0.065937 |
0.893617 |
0.930366 |
0.810000 |
400 |
0.045500 |
0.061865 |
0.892704 |
0.926625 |
0.830000 |
500 |
0.033600 |
0.057814 |
0.902954 |
0.938630 |
0.860000 |
600 |
0.026000 |
0.062982 |
0.894515 |
0.934107 |
0.840000 |
700 |
0.021900 |
0.056275 |
0.904564 |
0.946113 |
0.870000 |
800 |
0.017700 |
0.061058 |
0.887967 |
0.937067 |
0.860000 |
900 |
0.016100 |
0.058965 |
0.890756 |
0.933716 |
0.870000 |
1000 |
0.014200 |
0.055885 |
0.903766 |
0.942372 |
0.880000 |
1100 |
0.013200 |
0.056888 |
0.895397 |
0.937849 |
0.880000 |
1200 |
0.012700 |
0.057484 |
0.895397 |
0.937849 |
0.870000 |
📄 许可证
本项目采用Apache-2.0许可证。
其他信息
属性 |
详情 |
模型类型 |
基于微调的文本分类模型 |
训练数据 |
sarahwei/cyber_MITRE_CTI_dataset |
⚠️ 重要提示
此模型主要针对网络安全文本分类进行微调,若句子与攻击无关,性能可能不佳。
💡 使用建议
在使用模型时,确保输入的文本与网络攻击相关,以获得更好的分类效果。