🚀 DarkBERT-finetuned-ner
本模型是基于s2w-ai/DarkBERT在未知数据集上微调得到的版本。它在评估集上取得了以下成绩:
- 损失值:0.6416
- 精确率:0.4628
- 召回率:0.5470
- F1值:0.5014
- 准确率:0.8901
✨ 主要特性
VERISBERTA是一款先进的语言模型,旨在提升关键基础设施领域的威胁情报分析能力。它专注于解读安全事件描述,在使用从Verizon网络安全事件数据库中提取的真实事件数据进行训练时,会使用特定领域的词汇。
该模型基于darkBERT模型,并使用VCDB的数据进行了微调,以识别关键实体和术语。VERISBERTA旨在成为网络安全专业人员的实用工具,便于收集和分析关键基础设施中的关键威胁情报数据。
📚 详细文档
预期用途与局限性
已开发出一种机器学习模型,用于在网络安全事件的背景下,使用VERIS词汇表(事件记录和事件共享词汇表)及其4A类别(行为者、资产、行动和属性)对命名实体(NER)进行分类和识别。该模型基于BERT架构,并在专门为这项工作准备的语料库上进行了预训练,该语料库包含从VCDB中提取的描述,这使其能够更好地理解VERIS语言和该环境的特征。该模型在评估任务中表现良好,准确率达到0.88。
未来工作方向
可以探索不同的技术来提高NER模型的性能,例如使用更先进的文本预处理技术或结合其他机器学习模型。可以扩展VERIS词汇表,以包含与网络安全事件分析相关的新命名实体。可以通过新的任务扩展模型的功能,例如文本分类,通过分析HF中更适合此类问题的其他模型,来识别事件描述中的CIA属性类型。
训练和评估数据
VCDB是一个免费的公共存储库,包含以VERIS格式编码的公开披露的安全事件。该数据集包含广泛的事件信息,包括恶意软件攻击、入侵、数据泄露和拒绝服务(DoS)攻击,以及各种现实世界的安全事件,这可以帮助CIT团队更好地了解当前和新兴的威胁。
VCDB可用于分析安全事件的趋势,例如最常见的攻击类型、威胁行为者和目标行业。它还可用于训练威胁情报模型,帮助识别和预防安全事件,这也是本文的目的。
📦 安装指南
暂未提供相关安装步骤。
💻 使用示例
训练过程
trainer = Trainer(
model,
args,
train_dataset=tokenized_datasets["train"],
eval_dataset=tokenized_datasets["test"],
data_collator=data_collator,
tokenizer=tokenizer,
compute_metrics=compute_metrics
)
trainer.train()
训练超参数
训练过程中使用了以下超参数:
- 学习率:0.0002
- 训练批次大小:8
- 评估批次大小:8
- 随机种子:42
- 梯度累积步数:2
- 总训练批次大小:16
- 优化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 学习率调度器类型:线性
- 训练轮数:10
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
精确率 |
召回率 |
F1值 |
准确率 |
无日志记录 |
1.0 |
111 |
0.3933 |
0.3563 |
0.4337 |
0.3912 |
0.8726 |
无日志记录 |
2.0 |
222 |
0.3491 |
0.4345 |
0.5672 |
0.4921 |
0.8886 |
无日志记录 |
3.0 |
333 |
0.3991 |
0.4284 |
0.5405 |
0.4780 |
0.8795 |
无日志记录 |
4.0 |
444 |
0.3969 |
0.4565 |
0.5797 |
0.5108 |
0.8877 |
0.2744 |
5.0 |
555 |
0.4276 |
0.4737 |
0.5690 |
0.5170 |
0.8887 |
0.2744 |
6.0 |
666 |
0.5237 |
0.4918 |
0.5637 |
0.5253 |
0.8862 |
0.2744 |
7.0 |
777 |
0.5472 |
0.4855 |
0.5503 |
0.5159 |
0.8877 |
0.2744 |
8.0 |
888 |
0.6319 |
0.4581 |
0.5699 |
0.5079 |
0.8855 |
0.2744 |
9.0 |
999 |
0.6511 |
0.4901 |
0.5744 |
0.5289 |
0.8901 |
0.0627 |
10.0 |
1110 |
0.6758 |
0.4900 |
0.5681 |
0.5262 |
0.8899 |
框架版本
- Transformers 4.42.4
- Pytorch 2.3.1+cu121
- Datasets 2.21.0
- Tokenizers 0.19.1
📄 许可证
本模型采用CC BY-NC 4.0许可证。