🚀 Primus:用于网络安全大语言模型训练的开源数据集先锋合集
Primus是一系列用于网络安全大语言模型训练的开源数据集,涵盖了预训练、指令微调等多个阶段。基于这些数据集开发的模型,在多个网络安全基准测试中表现出色,为网络安全领域的大语言模型研究和应用提供了有力支持。
🚀 快速开始
模型信息
属性 |
详情 |
模型类型 |
基于Trend Micro的研究和技术,开发的一系列网络安全大语言模型 |
训练数据 |
包括预训练数据集(Primus - Seed和Primus - FineWeb)、指令微调数据集(Primus - Instruct)和蒸馏推理数据集(Primus - Reasoning) |
基础模型 |
trendmicro - ailab/Llama - Primus - Base |
任务类型 |
文本生成 |
库名称 |
transformers |
访问权限
访问该模型需要填写一些额外信息:
- 所属机构(Affiliation)
- 国家(Country)
- 使用目的:可选择研究、商业或其他
- 职位:可选择学生、研究毕业生、AI研究员、AI开发者/工程师、网络安全研究员、记者或其他
- 地理位置:通过IP地址定位
论文参考
🔥 更多详细信息,请参考论文:[📄论文]。
✨ 主要特性
数据集覆盖多阶段训练
提供了涵盖网络安全大语言模型预训练、指令微调及推理数据蒸馏等多个阶段的数据集,为模型的全面训练提供了丰富资源。
模型性能提升显著
基于这些数据集开发的Llama - Primus - Merged模型,在多个网络安全基准测试中取得了优于Llama - 3.1 - 8B - Instruct的成绩,综合得分提升了14.84%。
依托先进技术和研究
由Trend Micro通过前沿研究和先进技术开发,与企业级Trend Cybertron解决方案共享创新基础。
📚 详细文档
基准测试结果
网络安全
指标(5次抽样,无思维链) |
Llama - 3.1 - 8B - Instruct |
Llama - Primus - Merged |
CTI - Bench(多项选择题) |
0.6420 |
0.6656 |
CTI - Bench(CVE → CWE) |
0.5910 |
0.6620 |
CTI - Bench(CVSS,越低越好) |
1.2712 |
1.1233 |
CTI - Bench(ATE) |
0.2721 |
0.3387 |
CyberMetric(500) |
0.8560 |
0.8660 |
SecEval |
0.4966 |
0.5062 |
Cissp(书中考试) |
0.7073 |
0.7191 |
综合得分 |
2.29 |
2.63 ↑14.84% 🔥 |
CTI - Bench(CVSS)使用平均绝对偏差计分(越低越好),CTI - ATE使用F1分数,其他使用准确率。综合得分(Agg.)是所有基准测试得分的总和,CTI - Bench(CVSS)取负值。
参考资料:
函数调用
指标 |
Llama - 3.1 - 8B - Instruct |
Llama - Primus - Merged |
BFCL (V2) |
73.02(提示) |
74.77(提示) |
参考资料:
安全与毒性
指标 |
Llama - 3.1 - 8B - Instruct |
Llama - Primus - Merged |
dan(越狱) |
28.98% |
41.70% |
encoding(越狱) |
100.00% |
100.00% |
goodside(幻觉/注入) |
77.08% |
72.10% |
latentinjection(注入) |
75.55% |
74.00% |
leakreplay(版权) |
95.71% |
96.90% |
malwaregen(禁止) |
14.34% |
29.00% |
realtoxicityprompts(禁止) |
90.03% |
85.40% |
snowball(幻觉) |
59.67% |
84.20% |
xss(注入) |
100.00% |
98.30% |
XSTest(过度拒绝) |
93.20% |
83.20% |
参考资料:
- Garak:Garak Repository
- XSTest:[XSTest Repository](https://github.com/paul - rottger/exaggerated - safety)
多语言能力
语言 |
Llama - 3.1 - 8B - Instruct |
Llama - Primus - Merged |
MMLU(英语) |
68.16% |
67.36% |
MMLU(日语) |
49.22% |
47.85% |
MMLU(法语) |
58.91% |
58.14% |
MMLU(德语) |
57.70% |
56.68% |
参考资料:
通用聊天性能
指标 |
Llama - 3.1 - 8B - Instruct |
Llama - Primus - Merged |
MT Bench |
8.3491 |
8.29375 |
参考资料:
长上下文处理能力
长度 |
Llama - 3.1 - 8B - Instruct |
Llama - Primus - Merged |
8K+ |
51.08 |
50.66 |
16K+ |
29.18 |
27.13 |
参考资料:
关于Primus
Primus 是Trend Micro开创的轻量级、先进的开源网络安全语言模型和数据集家族。通过前沿研究和先进技术开发,这些资源与企业级 [Trend Cybertron](https://newsroom.trendmicro.com/2025 - 02 - 25 - Trend - Micro - Puts - Industry - Ahead - of - Cyberattacks - with - Industrys - First - Proactive - Cybersecurity - AI) 解决方案共享创新基础。作为网络安全行业的领导者,Trend Micro自豪地将这些强大、优化效率的模型和数据集贡献给社区,同时保持定义全球安全标准的卓越性和可靠性。
📄 许可证
该模型基于MIT许可证,但您还必须遵守Llama 3.1社区许可协议。
⚠️ 重要提示
本模型不包含Trend Micro的任何客户信息。