模型简介
模型特点
模型能力
使用案例
🚀 Llama-3.3-Nemotron-70B-Feedback模型
Llama-3.3-Nemotron-70B-Feedback是一个基于Meta-Llama-3.3-70B-Instruct微调的大语言模型,可针对大语言模型生成的用户查询响应提供反馈,支持商业使用。
🚀 快速开始
你可以使用HuggingFace Transformers库来使用该模型,需要2块或更多80GB的GPU(NVIDIA Ampere或更新版本),并且至少有150GB的可用磁盘空间以容纳下载内容。
此代码已在Transformers v4.45.0、torch v2.3.0a0 + 40ec155e58.nv24.3和2块A100 80GB GPU上进行了测试,但任何支持meta-llama/Llama-3.1-70B-Instruct的设置也应支持此模型。如果你遇到问题,可以考虑执行pip install -U transformers
。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "nvidia/Llama-3.3-Nemotron-70B-Feedback"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)
def generate_feedback(messages, model, tokenizer, temperature=0.7):
tokenized_message = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt", return_dict=True)
response_token_ids = model.generate(tokenized_message['input_ids'].cuda(),attention_mask=tokenized_message['attention_mask'].cuda(), max_new_tokens=128, pad_token_id = tokenizer.eos_token_id, num_return_sequences=1, temperature=temperature)
generated_tokens =response_token_ids[:, len(tokenized_message['input_ids'][0]):]
generated_text = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
return generated_text
prompt = "What is the distance between the Earth and the Sun?"
response = "The distance from Earth to the Sun is 93 million miles"
messages = [
{"role": "user", "content": prompt},
{"role": "assistant", "content": response},
{"role": "user", "content": "Evaluate the response to the previous prompt in terms of how helpful it is overall. Start the evaluation with the statement - The response is {not / slightly / partially / mostly / perfectly} helpful. Then provide a brief explanation of the evaluation in 2 to 10 sentences."}
]
feedback = generate_feedback(messages, model, tokenizer, temperature=0.7)
print(feedback)
## Illustrative example - feedback generated might not be identical since temperature sampling is used
# The response is partially helpful. It provides a concise answer to the prompt. However, the lack of additional information or context limits its usefulness. It could have been more informative by including the average distance in astronomical units (AU) and explaining the variation in distance due to the elliptical orbit.
✨ 主要特性
- 基于Meta-Llama-3.3-70B-Instruct微调,可针对大语言模型生成的用户查询响应提供反馈。
- 支持商业使用。
📚 详细文档
模型概述
Llama-3.3-Nemotron-70B-Feedback基于Meta-Llama-3.3-70B-Instruct,通过监督微调提供反馈,支持商业使用。
Arena Hard排行榜
截至2025年3月18日,使用Feedback-Edit推理时间缩放(ITS)方法增强的模型在Arena Hard上表现最佳。相关模型如下:
模型 | Arena Hard (95% CI) |
---|---|
Llama-3.3-Nemotron-Super-49B-v1 + Feedback-Edit ITS | 93.4 (-1.1, 1.0) |
Llama-3.1-Nemotron-70B-Instruct + Feedback-Edit ITS | 92.7 (-1.2, 0.9) |
o1-mini-2024-09-12 | 92.0 (-1.2, 1.0) |
o1-preview-2024-09-12 | 90.4 (-1.1, 1.3) |
Llama-3.3-Nemotron-Super-49B-v1 | 88.3 (-1.6, 1.6) |
claude-3-5-sonnet-20241022 | 85.2 (-1.4, 1.6) |
Llama-3.1-Nemotron-70B-Instruct | 84.9 (-1.7, 1.8) |
使用场景
该模型为对通过推理时间缩放提高通用领域、开放式任务性能感兴趣的用户,提供大语言模型生成的用户查询响应的反馈。
发布日期
2025年3月18日
参考资料
- Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks
- HelpSteer2-Preference
- SteerLM method
- HelpSteer
- HelpSteer2
- The future of AI: Built with Llama
- Meta's Llama 3.3 Webpage
- Meta's Llama 3.3 Model Card
模型架构
属性 | 详情 |
---|---|
模型类型 | Transformer |
网络架构 | Llama 3.3 |
该模型基于Llama-3.3-70B-Instruct开发,包含700亿个参数。
输入
属性 | 详情 |
---|---|
输入类型 | 文本 |
输入格式 | 字符串 |
输入参数 | 一维 (1D) |
其他输入属性 | 最大128k个令牌 |
输出
属性 | 详情 |
---|---|
输出类型 | 文本 |
输出格式 | 字符串 |
输出参数 | 一维 (1D) |
其他输出属性 | 最大4k个令牌 |
软件集成
属性 | 详情 |
---|---|
运行时引擎 | [NeMo - 24.05.llama.3.1] |
支持的硬件微架构兼容性 | NVIDIA Ampere、NVIDIA Hopper、NVIDIA Turing |
支持的操作系统 | Linux |
训练和测试数据集
训练数据集
- 数据集名称:HelpSteer3
- 数据集链接:https://huggingface.co/datasets/nvidia/HelpSteer3
- 数据收集方法:混合(人工、合成)
- 标注方法:人工
- 属性:77,564个提示 - 响应,每个标注最多3条自由文本反馈(每条50 - 250字),阐述响应的整体有用性。
测试数据集
- 数据集名称:HelpSteer3
- 数据集链接:https://huggingface.co/datasets/nvidia/HelpSteer3
- 数据收集方法:混合(人工、合成)
- 标注方法:人工
- 属性:4,078个提示 - 响应,每个标注最多3条自由文本反馈(每条50 - 250字),阐述响应的整体有用性。
推理
属性 | 详情 |
---|---|
推理引擎 | Triton |
测试硬件 | H100、A100 80GB、A100 40GB |
局限性
该模型在包含从互联网爬取的有毒语言、不安全内容和社会偏见的数据上进行训练。因此,模型可能会放大这些偏见并返回有毒响应,尤其是在输入有毒提示时。即使提示本身不包含任何明确的冒犯性内容,模型也可能生成不准确的答案、遗漏关键信息或包含无关或冗余的文本,产生社会不可接受或不良的文本。
伦理考虑
NVIDIA认为可信AI是共同的责任,我们已经制定了政策和实践,以支持广泛的AI应用开发。当按照我们的服务条款下载或使用时,开发者应与支持的模型团队合作,确保该模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。 有关该模型伦理考虑的更多详细信息,请参阅模型卡片++ 可解释性、偏差、安全与保障和隐私子卡片。 请在此报告安全漏洞或NVIDIA AI相关问题。
引用
如果你发现此模型有用,请引用以下工作:
@misc{wang2025dedicatedfeedbackeditmodels,
title={Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks},
author={Zhilin Wang and Jiaqi Zeng and Olivier Delalleau and Daniel Egert and Ellie Evans and Hoo-Chang Shin and Felipe Soares and Yi Dong and Oleksii Kuchaiev},
year={2025},
eprint={2503.04378},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.04378},
}
📄 许可证
本模型的使用受 NVIDIA开放模型许可证 约束。附加信息:Llama 3.3社区许可协议。基于Llama构建。
⚠️ 重要提示
该模型在包含有毒语言、不安全内容和社会偏见的数据上训练,可能放大这些偏见并返回有毒响应,使用时需谨慎。
💡 使用建议
若遇到问题,可执行
pip install -U transformers
进行更新。使用时与支持的模型团队合作,确保满足相关行业和用例要求。



