许可证: mit
语言:
- 英文
- 日文
基础模型:
- trend-cybertron/Llama-Primus-Nemotron-70B-Base
任务标签: 文本生成
额外授权字段:
所属机构: 文本
国家: 国家
使用目的:
类型: 下拉选择
选项:
- 研究
- 商业
- 标签: 其他
值: 其他
职位:
类型: 下拉选择
选项:
- 学生
- 研究生
- AI研究员
- AI开发/工程师
- 网络安全研究员
- 记者
- 其他
地理位置: IP定位
库名称: transformers
数据集:
- trendmicro-ailab/Primus-FineWeb
- trendmicro-ailab/Primus-Instruct
标签:
- 网络安全
Llama-Primus-Nemotron-70B-Instruct
简介
Llama-Primus-Nemotron系列基于nvidia/Llama-3.1-Nemotron-70B-Instruct
进行持续训练。按照Primus论文所述方法,我们首先在大规模网络安全语料(超100亿token)上进行预训练得到Llama-Primus-Nemotron-Base,随后进行监督微调并应用DELLA与原版Nemotron融合,最终形成Llama-Primus-Nemotron-70B-Instruct。
_Llama-Primus-Nemotron-70B-Instruct_在多个公共网络安全基准测试中实现18.18%的综合得分提升,同时在通用指令跟随基准(Arena Hard)保持同等性能。
基准测试结果
网络安全
指标(5样本,使用对话模板) |
Llama-3.1-Nemotron-70B-Instruct |
Llama-Primus-Nemotron-70B-Instruct |
CTI-Bench(选择题) |
0.6320 |
0.7148 |
CTI-Bench(CVE→CWE映射) |
0.6020 |
0.6770 |
CTI-Bench(CVSS评分,值越低越好) |
1.4523 |
1.2469 |
CTI-Bench(攻击技战术提取) |
0.4284 |
0.5039 |
CyberMetric(500题) |
0.9240 |
0.9280 |
SecEval |
0.6875 |
0.7095 |
CISSP(认证试题) |
0.8428 |
0.8625 |
综合得分 |
2.6644 |
3.1488 ↑18.18% 🔥 |
CTI-Bench(CVSS)采用平均绝对偏差评分(值越低越好),CTI-ATE使用F1分数,其余采用准确率。综合得分(Agg.)为各基准总和,其中CTI-Bench(CVSS)取负值。
参考文献:
通用对话性能
指标 |
Llama-3.1-Nemotron-70B-Instruct |
Llama-Primus-Nemotron-70B-Instruct |
Arena Hard |
85.1 |
85.8 |
参考:
安全性与毒性
测试项 |
Llama-3.1-Nemotron-70B-Instruct |
Primus-Labor-70B(基于Llama-3.1-Nemotron) 🔥 |
越狱攻击(dan) |
43.14% |
61.96% |
编码越狱(encoding) |
93.37% |
96.87% |
幻觉/提示注入(goodside) |
75.00% |
72.50% |
潜在提示注入(latentinjection) |
62.46% |
70.35% |
版权泄露(leakreplay) |
88.23% |
92.43% |
恶意内容生成(malwaregen) |
18.99% |
25.84% |
真实毒性提示(realtoxicityprompts) |
97.55% |
98.25% |
雪球幻觉(snowball) |
100.00% |
100.00% |
跨站脚本攻击(xss) |
81.67% |
100.00% |
过度拒绝测试(XSTest) |
94.40% |
97.20% |
参考文献:
训练数据集
预训练阶段:
- Primus-Seed-V2(4.17亿token):增强版Primus-Seed,包含博客、新闻、书籍、网站、维基百科、MITRE及趋势科技知识库。
- Primus-FineWeb(25.7亿token):从FineWeb-edu-score-2筛选的网络安全文本。链接
- Primus-Nemotron-CC(76亿token):从Nemotron-CC筛选的网络安全文本。
监督微调:
说明: Primus-Seed-V2和Primus-Nemotron-CC数据集暂未开源,正在评估中。如有兴趣请联系我们。
免责声明: 不包含任何趋势科技客户数据。
关于_Primus_
_Primus_是趋势科技推出的轻量级尖端开源网络安全语言模型与数据集家族。通过前沿研究计划与先进技术开发,这些资源与驱动企业级趋势赛博坦解决方案的创新基础同源。作为网络安全行业领导者,趋势科技在保持全球安全标准卓越可靠性的同时,自豪地向社区贡献这些高效优化的模型与数据集。
致谢
特别感谢NVIDIA慷慨提供计算资源(台北-1集群),使本模型的训练开发成为可能。
许可证
本模型基于MIT许可证,但须同时遵守Llama 3.1社区许可协议。