许可证:其他
许可证名称:NVIDIA开放模型许可证
许可证链接:https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/
推理:不支持
微调:不支持
标签:
- NVIDIA
- llama3.3
数据集:
- nvidia/HelpSteer3
基础模型:meta-llama/Llama-3.3-70B-Instruct
流水线标签:文本生成
库名称:transformers
模型概述
描述:
Llama-3.3-Nemotron-70B-Feedback 是一个大型语言模型,基于 Meta-Llama-3.3-70B-Instruct 构建,并通过监督微调(SFT)进行优化,旨在为大型语言模型(LLM)生成的用户查询响应提供有用性反馈。
该模型已准备好用于商业用途。
许可证/使用条款:
管辖条款:该模型的使用受 NVIDIA开放模型许可证 约束。
附加信息:Llama 3.3社区许可协议。基于Llama构建。
Arena Hard排行榜
截至2025年3月18日,采用反馈-编辑推理时扩展(Feedback-Edit Inference Time Scaling, ITS)方法增强的模型在Arena Hard上表现最佳。
反馈-编辑推理时扩展系统包含以下模型:
- Llama-3.3-Nemotron-70B-Feedback
- Llama-3.3-Nemotron-70B-Edit
- Llama-3.3-Nemotron-70B-Select
模型 |
Arena Hard (95%置信区间) |
Llama-3.3-Nemotron-Super-49B-v1 + 反馈-编辑 ITS |
93.4 (-1.1, 1.0) |
Llama-3.1-Nemotron-70B-Instruct + 反馈-编辑 ITS |
92.7 (-1.2, 0.9) |
o1-mini-2024-09-12 |
92.0 (-1.2, 1.0) |
o1-preview-2024-09-12 |
90.4 (-1.1, 1.3) |
Llama-3.3-Nemotron-Super-49B-v1 |
88.3 (-1.6, 1.6) |
claude-3-5-sonnet-20241022 |
85.2 (-1.4, 1.6) |
Llama-3.1-Nemotron-70B-Instruct |
84.9 (-1.7, 1.8) |
使用场景:
Llama-3.3-Nemotron-70B-Feedback 为希望通过推理时扩展提升通用开放领域任务性能的用户,提供对LLM生成响应有用性的反馈。
发布日期:
2025年3月18日
参考文献:
模型架构:
架构类型:Transformer
网络架构:Llama 3.3
该模型基于Llama-3.3-70B-Instruct开发,包含700亿参数。
输入:
输入类型:文本
输入格式:字符串
输入参数:一维(1D)
其他输入属性:最多128k tokens
输出:
输出类型:文本
输出格式:字符串
输出参数:一维(1D)
其他输出属性:最多4k tokens
软件集成:
运行时引擎:
支持的硬件微架构:
- NVIDIA安培
- NVIDIA Hopper
- NVIDIA图灵
支持的操作系统:Linux
快速开始
您可以使用HuggingFace Transformers库在2块或更多80GB GPU(NVIDIA安培或更新架构)上运行该模型,至少需要150GB空闲磁盘空间以下载模型。
以下代码已在Transformers v4.45.0、torch v2.3.0a0+40ec155e58.nv24.3和2块A100 80GB GPU上测试,任何支持meta-llama/Llama-3.1-70B-Instruct的环境均应兼容此模型。若遇到问题,可尝试执行pip install -U transformers
。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "nvidia/Llama-3.3-Nemotron-70B-Feedback"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)
def generate_feedback(messages, model, tokenizer, temperature=0.7):
tokenized_message = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt", return_dict=True)
response_token_ids = model.generate(tokenized_message['input_ids'].cuda(),attention_mask=tokenized_message['attention_mask'].cuda(), max_new_tokens=128, pad_token_id = tokenizer.eos_token_id, num_return_sequences=1, temperature=temperature)
generated_tokens =response_token_ids[:, len(tokenized_message['input_ids'][0]):]
generated_text = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
return generated_text
prompt = "地球到太阳的距离是多少?"
response = "地球到太阳的距离是9300万英里"
messages = [
{"role": "user", "content": prompt},
{"role": "assistant", "content": response},
{"role": "user", "content": "评估上述回答的整体有用性。以'该回答{不/略微/部分/基本/完全}有帮助'开头,随后用2到10句话简要解释评估依据。"}
]
feedback = generate_feedback(messages, model, tokenizer, temperature=0.7)
print(feedback)
模型版本:
v1.0
训练与测试数据集:
训练数据集:
数据集名称:HelpSteer3
数据集链接:https://huggingface.co/datasets/nvidia/HelpSteer3
数据收集方法:
标注方法:
属性:
- 77,564条提示-响应对,每条包含最多3条自由文本反馈标注(每条50-250词),详细说明响应的整体有用性。
测试数据集:
数据集名称:HelpSteer3
数据集链接:https://huggingface.co/datasets/nvidia/HelpSteer3
数据收集方法:
标注方法:
属性:
- 4,078条提示-响应对,每条包含最多3条自由文本反馈标注(每条50-250词),详细说明响应的整体有用性。
推理:
引擎:Triton
测试硬件:H100, A100 80GB, A100 40GB
局限性:
该模型训练数据包含从互联网爬取的有毒语言、不安全内容和社会偏见,因此可能放大这些偏见并在有毒提示下返回有害响应。即使提示本身无攻击性,模型仍可能生成不准确、遗漏关键信息或包含无关/冗余文本的答案,产生社会不可接受的内容。
伦理考量:
NVIDIA认为可信AI是共同责任,我们已制定政策与实践以支持广泛AI应用开发。开发者下载或使用本模型时,应与支持团队协作确保其符合相关行业要求,并防范意外滥用。
更多伦理考量详见模型卡++子项:可解释性、偏见、安全、隐私。
报告安全问题或NVIDIA AI相关疑虑请点击此处。
引用
若使用本模型,请引用以下文献:
@misc{wang2025dedicatedfeedbackeditmodels,
title={专用反馈与编辑模型赋能开放领域任务的推理时扩展},
author={王智林 and 曾佳琪 and Olivier Delalleau and Daniel Egert and Ellie Evans and Hoo-Chang Shin and Felipe Soares and 董毅 and Oleksii Kuchaiev},
year={2025},
eprint={2503.04378},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.04378},
}