Llama-Primus-Nemotron-70B-Instruct开源模型，网络安全检测能力大幅提升！

首页

Llama Primus Nemotron 70B Instruct

由 trend-cybertron 开发

基于nvidia/Llama-3.1-Nemotron-70B-Instruct进行持续训练的网络安全大语言模型，在网络安全基准测试中综合得分提升18.18%

大型语言模型

Transformers

支持多种语言开源协议:MIT #网络安全增强 #威胁情报分析 #多任务指令跟随

下载量 65

发布时间 : 4/21/2025

模型简介

Llama-Primus-Nemotron系列模型专注于网络安全领域，通过大规模网络安全语料预训练和DELLA融合技术，显著提升网络威胁情报分析能力，同时保持通用指令跟随性能。

模型特点

网络安全能力增强

在CTI-Bench等网络安全基准测试中综合得分提升18.18%，特别擅长网络威胁情报分析和CVE-CWE映射

DELLA融合技术

应用DELLA技术与原版Nemotron融合，实现性能提升的同时保持模型稳定性

多语言支持

支持英文和日文处理，适合国际化网络安全分析

安全性测试表现

在XSS等网络安全相关测试中达到100%检测率，真实毒性提示检测率达98.25%

模型能力

网络威胁情报分析

漏洞评估(CVSS评分)

攻击技战术提取

网络安全问答

多语言文本生成

指令跟随

使用案例

网络安全分析

CVE到CWE映射

将通用漏洞披露(CVE)映射到通用弱点枚举(CWE)

准确率从60.2%提升至67.7%

CVSS评分预测

预测漏洞的通用漏洞评分系统(CVSS)分数

平均绝对偏差从1.4523降低至1.2469

安全认证准备

CISSP考试辅助

帮助准备CISSP(信息系统安全认证专家)考试

试题回答准确率达86.25%

🚀 Llama-Primus-Nemotron-70B-Instruct

Llama-Primus-Nemotron-70B-Instruct 是基于持续训练构建的模型，在多个公共网络安全基准测试中取得显著提升，同时在通用指令遵循基准测试中保持性能一致。

简介
基准测试结果
训练数据集
致谢

📖 简介

Llama-Primus-Nemotron 系列在 nvidia/Llama-3.1-Nemotron-70B-Instruct 的基础上进行持续训练。我们遵循 Primus 论文中描述的相同方法，首先在大规模网络安全语料库（超过 100 亿 个标记）上进行预训练，得到 Llama-Primus-Nemotron-Base。然后进行有监督微调，并应用 DELLA 与原始的 Nemotron 进行合并，最终得到 Llama-Primus-Nemotron-70B-Instruct。

Llama-Primus-Nemotron-70B-Instruct 在多个公共网络安全基准测试的综合得分上提高了 18.18%，同时在通用指令遵循基准测试（Arena Hard）中保持了相同的性能。

Llama-Primus-Nemorton

🔒 网络安全

指标 (5-shot, 带聊天模板)	Llama-3.1-Nemotron-70B-Instruct	Llama-Primus-Nemotron-70B-Instruct
CTI-Bench (MCQ)	0.6320	0.7148
CTI-Bench (CVE → CWE)	0.6020	0.6770
*CTI-Bench (CVSS, 越低越好)*	1.4523	1.2469
CTI-Bench (ATE)	0.4284	0.5039
CyberMetric (500)	0.9240	0.9280
SecEval	0.6875	0.7095
CISSP (考试问题)	0.8428	0.8625
*综合得分*	2.6644	3.1488 ↑18.18% 🔥

CTI-Bench(CVSS) 使用平均绝对偏差进行评分（越低越好），CTI-ATE 使用 F1 分数，其他指标使用准确率。综合得分（Agg.）是所有基准测试得分的总和，其中 CTI-Bench(CVSS) 取负值。

参考资料：

CyberMetric：CyberMetric: A Benchmark Dataset based on Retrieval-Augmented...
CTI-Bench：CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence
SecEval：SecEval: A Comprehensive Benchmark for Evaluating Cybersecurity Knowledge of Foundation Models

💬 通用聊天性能

指标	Llama-3.1-Nemotron-70B-Instruct	Llama-Primus-Nemotron-70B-Instruct
Arena Hard	85.1	85.8

参考资料：

Arena Hard

🛡️ 安全性与毒性

指标	Llama-3.1-Nemotron-70B-Instruct	Primus-Labor-70B (Llama-3.1-Nemotron-70B-Instruct) 🔥
dan (越狱)	43.14%	61.96%
encoding (越狱)	93.37%	96.87%
goodside (幻觉 / 提示注入)	75.00%	72.50%
latentinjection (提示注入)	62.46%	70.35%
leakreplay (版权)	88.23%	92.43%
malwaregen (禁止内容)	18.99%	25.84%
realtoxicityprompts (禁止内容)	97.55%	98.25%
snowball (幻觉)	100.00%	100.00%
xss (提示注入)	81.67%	100.00%
XSTest (过度拒绝)	94.40%	97.20%

参考资料：

Garak：Garak 仓库
XSTest：XSTest 仓库

📈 训练数据集

预训练：

Primus-Seed-V2 (4.17 亿)： Primus-Seed 的增强版本，丰富了博客、新闻、书籍、网站、维基百科、MITRE 和趋势科技的知识。
Primus-FineWeb (25.7 亿)： 从 FineWeb-edu-score-2 中过滤出的网络安全文本。链接
Primus-Nemotron-CC (76 亿)： 从 Nemotron-CC 中过滤出的网络安全文本。

有监督微调：

Primus-Instruct：链接

⚠️ 重要提示

数据集 Primus-Seed-V2 和 Primus-Nemotron-CC 尚未开源，目前正在讨论中。如果您感兴趣，请随时联系我们。

💡 使用建议

本模型不包含趋势科技的任何客户信息。

📚 关于 Primus

Primus 是趋势科技首创的轻量级、先进的开源网络安全语言模型和数据集系列。这些资源通过我们的前沿研究计划和先进技术开发而来，与为我们企业级 Trend Cybertron 解决方案提供支持的创新基础共享。作为网络安全领域的行业领导者，趋势科技自豪地将这些强大、优化效率的模型和数据集贡献给社区，同时保持定义我们全球安全标准的卓越性和可靠性。