Llama-3.3-Nemotron-70B-Select开源大模型 - 免费选出最有用的查询响应

首页

Llama 3.3 Nemotron 70B Select

由 nvidia 开发

基于Meta-Llama-3.3-70B-Instruct构建的大型语言模型，用于选择对用户查询最有帮助的LLM生成响应。

大型语言模型

Transformers

开源协议:其他 #响应质量评分 #Bradley-Terry建模 #128k上下文窗口

下载量 427

发布时间 : 3/14/2025

模型简介

该模型通过扩展的Bradley-Terry建模进行微调，专门用于评估和选择对用户查询最有帮助的LLM生成响应，适用于希望通过推理时间扩展提升通用开放任务性能的用户。

模型特点

商业用途准备就绪

该模型已准备好用于商业用途，受NVIDIA开放模型许可证约束。

高性能响应选择

通过扩展的Bradley-Terry建模进行微调，能够准确评估和选择最有帮助的LLM生成响应。

反馈-编辑推理时间扩展系统

作为反馈-编辑推理时间扩展系统的一部分，与Feedback和Edit模型协同工作，提供更优的推理性能。

大上下文窗口

支持最多128k个token的输入，适合处理长文本内容。

模型能力

响应质量评估

文本理解

长文本处理

使用案例

AI辅助决策

多响应质量排序

对同一用户查询的多个LLM生成响应进行质量评估和排序

输出浮点值表示响应质量，数值越高表示质量越高

AI系统优化

推理时间扩展系统

作为反馈-编辑推理时间扩展系统的一部分，提升整体系统性能

在Arena Hard排行榜上表现优异

🚀 Llama-3.3-Nemotron-70B-Select模型

Llama-3.3-Nemotron-70B-Select是基于Meta-Llama-3.3-70B-Instruct微调的大语言模型，借助特定建模方法为用户查询挑选最有帮助的回复，可用于商业用途。

🚀 快速开始

你可以使用HuggingFace Transformers库来使用该模型，需要2块或更多80GB的GPU（NVIDIA Ampere或更新版本），并至少有150GB的可用磁盘空间用于下载。

此代码已在Transformers v4.45.0、torch v2.3.0a0 + 40ec155e58.nv24.3和2块A100 80GB GPU上进行了测试，但任何支持meta - llama/Llama-3.1-70B-Instruct的设置也应支持此模型。如果你遇到问题，可以考虑执行pip install -U transformers。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "nvidia/Llama-3.3-Nemotron-70B-Select"

model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "What is the distance between the Earth and the Sun?"
good_response = "The distance from Earth to the Sun is 93 million miles"
bad_response =  "The distance from Earth to the Sun is 39 million miles"

for response in [good_response, bad_response]:
    messages = [{'role': "user", "content": prompt}, {'role': "assistant", "content": response}]
    tokenized_message = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=False, return_tensors="pt", return_dict=True)
    response_token_ids = model.generate(tokenized_message['input_ids'].cuda(),attention_mask=tokenized_message['attention_mask'].cuda(),  max_new_tokens=1, return_dict_in_generate=True, output_scores=True)
    quality = response_token_ids['scores'][0][0][0].item()
    print(quality)

# Example quality - note that higher scores means higher quality, and scores can be negative.

# good_response: -4.78125
# bad_response -7.21875

✨ 主要特性

精准选择：能够从大语言模型生成的回复中，挑选出对用户查询最有帮助的回复。
商业可用：该模型可用于商业用途。

📚 详细文档

模型概述

Llama-3.3-Nemotron-70B-Select以Meta-Llama-3.3-70B-Instruct为基础，通过缩放的Bradley - Terry建模进行微调，旨在为用户查询选择最有帮助的大语言模型生成的回复。

许可证/使用条款

本模型的使用受NVIDIA开放模型许可证的约束。更多信息请参考Llama 3.3社区许可协议。本模型基于Llama构建。

Arena Hard排行榜

截至2025年3月18日，使用反馈编辑推理时间缩放（Feedback-Edit Inference Time Scaling，ITS）方法增强的模型在Arena Hard上表现最佳。

反馈编辑推理时间缩放系统包含以下模型：

模型	Arena Hard (95% CI)
Llama-3.3-Nemotron-Super-49B-v1 + Feedback-Edit ITS	93.4 (-1.1, 1.0)
Llama-3.1-Nemotron-70B-Instruct + Feedback-Edit ITS	92.7 (-1.2, 0.9)
o1-mini-2024-09-12	92.0 (-1.2, 1.0)
o1-preview-2024-09-12	90.4 (-1.1, 1.3)
Llama-3.3-Nemotron-Super-49B-v1	88.3 (-1.6, 1.6)
claude-3-5-sonnet-20241022	85.2 (-1.4, 1.6)
Llama-3.1-Nemotron-70B-Instruct	84.9 (-1.7, 1.8)

使用场景

Llama-3.3-Nemotron-70B-Select适用于那些希望通过推理时间缩放来提高通用领域、开放式任务性能的用户，它可以为用户查询选择最有帮助的大语言模型生成的回复。

发布日期

2025年3月18日

参考文献

模型架构

属性	详情
模型类型	Transformer
网络架构	Llama 3.3

本模型基于Llama-3.3-70B-Instruct开发，包含700亿个参数。

输入

属性	详情
输入类型	文本
输入格式	字符串
输入参数	一维 (1D)
其他输入相关属性	最大128k个标记

输出

属性	详情
输出类型	浮点数
输出格式	单个浮点数
输出参数	一维 (1D)
其他输出相关属性	浮点数表示回复的质量，值越高表示质量越高

软件集成

运行时引擎：[NeMo - 24.05.llama.3.1]
支持的硬件微架构兼容性：NVIDIA Ampere、NVIDIA Hopper、NVIDIA Turing
支持的操作系统：Linux

模型版本

v1.0

训练和测试数据集

训练数据集

数据集名称：HelpSteer3
数据集链接：https://huggingface.co/datasets/nvidia/HelpSteer3
数据收集方法：混合（人工、合成）
标注方法：人工
属性：包含38,459个提示，每个提示都有一对回复以及人工对这对回复的偏好。

测试数据集

数据集名称：HelpSteer3
数据集链接：https://huggingface.co/datasets/nvidia/HelpSteer3
数据收集方法：混合（人工、合成）
标注方法：人工
属性：包含2,017个提示，每个提示都有一对回复以及人工对这对回复的偏好。

推理

推理引擎：Triton
测试硬件：H100、A100 80GB、A100 40GB

局限性

该模型在包含从互联网爬取的有毒语言、不安全内容和社会偏见的数据上进行训练。因此，该模型可能会放大这些偏见，并在接收到有毒提示时返回有毒回复。即使提示本身不包含任何明确的冒犯性内容，该模型也可能生成不准确的答案、遗漏关键信息或包含无关或冗余的文本，从而产生社会不可接受或不良的文本。

伦理考量

NVIDIA认为可信AI是一项共同责任，我们已经制定了政策和实践，以支持广泛的AI应用开发。当开发者按照我们的服务条款下载或使用该模型时，应与支持的模型团队合作，确保该模型满足相关行业和用例的要求，并解决不可预见的产品滥用问题。

如需了解该模型伦理考量的更多详细信息，请参阅模型卡片++ 可解释性、偏差、安全与保障和隐私子卡片。

请在此报告安全漏洞或NVIDIA AI相关问题。

🔧 技术细节

该模型以Meta-Llama-3.3-70B-Instruct为基础模型，使用缩放的Bradley - Terry建模进行微调。在训练和测试过程中，使用了HelpSteer3数据集，该数据集通过混合的人工和合成数据收集方法获取，并经过人工标注。模型在推理时使用Triton推理服务器，支持多种NVIDIA硬件和Linux操作系统。