许可证:其他
许可证名称:NVIDIA开放模型许可证
许可证链接:https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/
推理:不支持
微调:不支持
标签:
- NVIDIA
- llama3.3
数据集:
- nvidia/HelpSteer3
基础模型:meta-llama/Llama-3.3-70B-Instruct
库名称:transformers
模型概述
描述:
Llama-3.3-Nemotron-70B-Select 是一个大型语言模型,基于 Meta-Llama-3.3-70B-Instruct 构建,并通过扩展的 Bradley-Terry 建模进行微调,用于选择对用户查询最有帮助的 LLM 生成响应。
该模型已准备好用于商业用途。
许可证/使用条款:
管辖条款:使用本模型受 NVIDIA 开放模型许可证 约束。
附加信息:Llama 3.3 社区许可证协议。基于 Llama 构建。
Arena Hard 排行榜
截至 2025 年 3 月 18 日,采用反馈-编辑推理时间扩展(Feedback-Edit Inference Time Scaling, ITS)方法增强的模型在 Arena Hard 上表现最佳。
反馈-编辑推理时间扩展系统包含以下模型:
- Llama-3.3-Nemotron-70B-Feedback
- Llama-3.3-Nemotron-70B-Edit
- Llama-3.3-Nemotron-70B-Select
模型 |
Arena Hard (95% 置信区间) |
Llama-3.3-Nemotron-Super-49B-v1 + 反馈-编辑 ITS |
93.4 (-1.1, 1.0) |
Llama-3.1-Nemotron-70B-Instruct + 反馈-编辑 ITS |
92.7 (-1.2, 0.9) |
o1-mini-2024-09-12 |
92.0 (-1.2, 1.0) |
o1-preview-2024-09-12 |
90.4 (-1.1, 1.3) |
Llama-3.3-Nemotron-Super-49B-v1 |
88.3 (-1.6, 1.6) |
claude-3-5-sonnet-20241022 |
85.2 (-1.4, 1.6) |
Llama-3.1-Nemotron-70B-Instruct |
84.9 (-1.7, 1.8) |
使用场景:
Llama-3.3-Nemotron-70B-Select 用于选择对用户查询最有帮助的 LLM 生成响应,适用于希望通过推理时间扩展提升通用开放任务性能的用户。
发布日期:
2025 年 3 月 18 日
参考文献:
模型架构:
架构类型:Transformer
网络架构:Llama 3.3
我们以 Llama-3.3-70B-Instruct 为基础开发了此模型。该模型包含 700 亿参数。
输入:
输入类型:文本
输入格式:字符串
输入参数:一维(1D)
其他输入相关属性:最多 128k 个 token
输出:
输出类型:浮点数
输出格式:单个浮点数
输出参数:一维(1D)
其他输出相关属性:浮点值表示响应质量,数值越高表示质量越高。
软件集成:
运行时引擎:
支持的硬件微架构兼容性:
- NVIDIA Ampere
- NVIDIA Hopper
- NVIDIA Turing
支持的操作系统:Linux
快速开始
您可以使用 HuggingFace Transformers 库运行此模型,需要 2 块或更多 80GB GPU(NVIDIA Ampere 或更新架构)以及至少 150GB 的可用磁盘空间以下载模型。
此代码已在 Transformers v4.45.0、torch v2.3.0a0+40ec155e58.nv24.3 和 2 块 A100 80GB GPU 上测试,但任何支持 meta-llama/Llama-3.1-70B-Instruct 的环境也应支持此模型。如果遇到问题,可以尝试运行 pip install -U transformers
。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "nvidia/Llama-3.3-Nemotron-70B-Select"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "地球到太阳的距离是多少?"
good_response = "地球到太阳的距离是 9300 万英里"
bad_response = "地球到太阳的距离是 3900 万英里"
for response in [good_response, bad_response]:
messages = [{'role': "user", "content": prompt}, {'role': "assistant", "content": response}]
tokenized_message = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=False, return_tensors="pt", return_dict=True)
response_token_ids = model.generate(tokenized_message['input_ids'].cuda(),attention_mask=tokenized_message['attention_mask'].cuda(), max_new_tokens=1, return_dict_in_generate=True, output_scores=True)
quality = response_token_ids['scores'][0][0][0].item()
print(quality)
模型版本:
v1.0
训练与测试数据集:
训练数据集:
数据集名称:HelpSteer3
数据集链接:https://huggingface.co/datasets/nvidia/HelpSteer3
数据收集方法:
标注方法:
属性:
- 38,459 条提示,每条提示包含一对响应以及人工对这对响应的偏好。
测试数据集:
数据集名称:HelpSteer3
数据集链接:https://huggingface.co/datasets/nvidia/HelpSteer3
数据收集方法:
标注方法:
属性:
- 2,017 条提示,每条提示包含一对响应以及人工对这对响应的偏好。
推理:
引擎:Triton
测试硬件:H100、A100 80GB、A100 40GB
局限性:
模型训练数据包含从互联网爬取的毒性语言、不安全内容和社会偏见。因此,模型可能放大这些偏见并返回毒性响应,尤其是在接收到毒性提示时。模型生成的答案可能不准确、遗漏关键信息或包含无关或冗余文本,产生社会不可接受或不理想的文本,即使提示本身不包含任何明确冒犯性内容。
伦理考量:
NVIDIA 认为可信赖的 AI 是共同责任,我们已制定政策和实践以支持广泛 AI 应用的开发。在下载或按照我们的服务条款使用时,开发者应与支持模型团队合作,确保该模型满足相关行业和使用场景的要求,并解决意外产品滥用问题。
有关此模型的详细伦理考量,请参阅模型卡片++ 可解释性、偏见、安全与保障 和 隐私 子卡片。
请通过此链接报告安全漏洞或 NVIDIA AI 相关问题。