许可证:llama3.1
语言:
- 英文
推理:不支持
微调:不支持
标签:
- 英伟达
- llama3.1
数据集:
- nvidia/HelpSteer2
基础模型:meta-llama/Llama-3.1-70B-Instruct
流水线标签:文本生成
库名称:transformers
模型概述
描述:
Llama-3.1-Nemotron-70B-Instruct是由英伟达定制的大型语言模型,旨在提升大语言模型生成回复对用户查询的有用性。
该模型在Arena Hard上达到85.0分,AlpacaEval 2 LC上达到57.6分,GPT-4-Turbo MT-Bench上达到8.98分,这些指标被认为能有效预测LMSys Chatbot Arena Elo表现。
截至2024年10月1日,该模型在所有三个自动对齐基准测试中均排名第一(AlpacaEval 2 LC验证标签页),超越了GPT-4o和Claude 3.5 Sonnet等前沿模型。
截至2024年10月24日,该模型在ChatBot Arena排行榜上的Elo得分为1267(±7),排名第9,风格控制排名第26。
该模型采用RLHF(特别是REINFORCE算法)、Llama-3.1-Nemotron-70B-Reward奖励模型和HelpSteer2-Preference提示数据集,以Llama-3.1-70B-Instruct作为初始策略进行训练。
Llama-3.1-Nemotron-70B-Instruct-HF是从Llama-3.1-Nemotron-70B-Instruct转换而来,以支持HuggingFace Transformers代码库。请注意,评估结果可能与基于NeMo-Aligner评估的原模型略有差异。
免费体验托管推理服务请访问build.nvidia.com——该服务提供与OpenAI兼容的API接口。
详见我们的论文https://arxiv.org/abs/2410.01257——作为预览,该模型无需特殊提示或额外推理标记即可正确回答草莓(strawberry)中有多少个r?
:
有趣的问题!
让我们数数"strawberry"中的"R":
1. S
2. T
3. R
4. A
5. W
6. B
7. E
8. R
9. R
10. Y
单词"strawberry"中共有**3个"R"**。
注:本模型展示了我们在通用领域指令遵循中提升有用性的技术,尚未针对数学等专业领域进行调优。
许可证
使用本模型需遵守NVIDIA开放模型许可证。
补充信息:Llama 3.1社区许可协议。基于Llama构建。
评估指标
截至2024年10月1日,Llama-3.1-Nemotron-70B-Instruct在Arena Hard、AlpacaEval 2 LC(验证标签页)和MT Bench(GPT-4-Turbo)上表现最佳
模型 |
Arena Hard |
AlpacaEval |
MT-Bench |
平均回复长度 |
详情 |
(95%置信区间) |
2 LC (标准误差) |
(GPT-4-Turbo) |
(MT-Bench字符数) |
Llama-3.1-Nemotron-70B-Instruct |
85.0 (-1.5, 1.5) |
57.6 (1.65) |
8.98 |
2199.8 |
Llama-3.1-70B-Instruct |
55.7 (-2.9, 2.7) |
38.1 (0.90) |
8.22 |
1728.6 |
Llama-3.1-405B-Instruct |
69.3 (-2.4, 2.2) |
39.3 (1.43) |
8.49 |
1664.7 |
Claude-3-5-Sonnet-20240620 |
79.2 (-1.9, 1.7) |
52.4 (1.47) |
8.81 |
1619.9 |
GPT-4o-2024-05-13 |
79.3 (-2.1, 2.0) |
57.5 (1.47) |
8.74 |
1752.2 |
使用方法:
您可以使用HuggingFace Transformers库,搭配2块或更多80GB显存的GPU(NVIDIA安培架构或更新)和至少150GB空闲磁盘空间来运行本模型。
以下代码已在Transformers v4.44.0、torch v2.4.0和2块A100 80GB GPU上测试通过,任何支持meta-llama/Llama-3.1-70B-Instruct
的环境都应兼容本模型。如遇问题,可尝试pip install -U transformers
升级。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "nvidia/Llama-3.1-Nemotron-70B-Instruct-HF"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "草莓中有多少个r?"
messages = [{"role": "用户", "content": prompt}]
tokenized_message = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt", return_dict=True)
response_token_ids = model.generate(tokenized_message['input_ids'].cuda(),attention_mask=tokenized_message['attention_mask'].cuda(), max_new_tokens=4096, pad_token_id=tokenizer.eos_token_id)
generated_tokens = response_token_ids[:, len(tokenized_message['input_ids'][0]):]
generated_text = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
print(generated_text)
参考文献:
模型架构:
架构类型: Transformer
网络架构: Llama 3.1
输入:
输入类型: 文本
输入格式: 字符串
输入参数: 一维(1D)
其他输入属性: 最大128k标记
输出:
输出类型: 文本
输出格式: 字符串
输出参数: 一维(1D)
其他输出属性: 最大4k标记
软件集成:
支持的硬件微架构:
- NVIDIA安培
- NVIDIA霍珀
- NVIDIA图灵
支持的操作系统: Linux
模型版本:
v1.0
训练与评估:
对齐方法
- 通过NeMo Aligner实现的REINFORCE算法
数据集:
数据收集方法
标注方法
链接:
属性(数量、数据集描述、传感器):
- 包含21,362个提示-响应对,用于使模型更符合人类偏好——特别是提升有用性、事实准确性、连贯性,并能根据复杂度和详细程度进行定制。
- 其中20,324个用于训练,1,038个用于验证。
推理:
引擎: Triton
测试硬件: H100、A100 80GB、A100 40GB
伦理考量:
英伟达认为可信AI是共同责任,我们已建立政策与实践来支持各类AI应用开发。开发者下载或使用本模型时,应遵守服务条款,并与模型团队协作确保其符合相关行业要求,防范意外滥用。更多伦理考量详见Model Card++中的可解释性、偏见、安全与隐私子卡片。请通过此链接报告安全问题或AI伦理问题。
引用
若使用本模型,请引用以下文献
@misc{wang2024helpsteer2preferencecomplementingratingspreferences,
title={HelpSteer2-Preference: 用偏好补充评分},
author={王智林、Alexander Bukharin、Olivier Delalleau、Daniel Egert、Gerald Shen、曾佳琪、Oleksii Kuchaiev、董毅},
year={2024},
eprint={2410.01257},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2410.01257},
}