许可证: 其他
许可证名称: NVIDIA开放模型许可证
许可证链接: >-
https://developer.download.nvidia.com/licenses/nvidia-open-model-license-agreement-june-2024.pdf
库名称: transformers
任务标签: 文本生成
语言:
- 英语
标签:
- NVIDIA
- Llama-3
- PyTorch
Llama-3.1-Minitron-4B-Width-Base
模型概述
Llama-3.1-Minitron-4B-Width-Base 是一个基础文本到文本模型,可适用于多种自然语言生成任务。该模型通过对Llama-3.1-8B进行剪枝获得,具体来说,我们剪枝了模型的嵌入大小和MLP中间维度。剪枝后,我们使用940亿个标记进行蒸馏持续训练,最终得到该模型;为此我们使用了Nemotron-4 15B中的持续预训练数据语料库。更多详情请参阅我们的技术报告。
该模型已准备好用于商业用途。
模型开发者: NVIDIA
模型训练时间: Llama-3.1-Minitron-4B-Width-Base 的训练时间为2024年7月29日至2024年8月3日。
许可证
本模型基于NVIDIA开放模型许可协议发布。
模型架构
Llama-3.1-Minitron-4B-Width-Base 使用3072的模型嵌入大小,32个注意力头,MLP中间维度为9216,总共有32层。此外,它使用了分组查询注意力(GQA)和旋转位置嵌入(RoPE)。
架构类型: 解码器Transformer(自回归语言模型)
网络架构: Llama-3.1
输入类型: 文本
输入格式: 字符串
输入参数: 无
其他输入相关属性: 在8000个字符以内效果最佳。
输出类型: 文本
输出格式: 字符串
输出参数: 一维
其他输出相关属性: 无
使用方法
对该模型的支持将在即将发布的transformers
版本中添加。在此之前,请从源代码安装该库:
pip install git+https://github.com/huggingface/transformers
现在我们可以对该模型进行推理:
import torch
from transformers import AutoTokenizer, LlamaForCausalLM
model_path = "nvidia/Llama-3.1-Minitron-4B-Width-Base"
tokenizer = AutoTokenizer.from_pretrained(model_path)
device = 'cuda'
dtype = torch.bfloat16
model = LlamaForCausalLM.from_pretrained(model_path, torch_dtype=dtype, device_map=device)
prompt = '完成段落:我们的太阳系是'
inputs = tokenizer.encode(prompt, return_tensors='pt').to(model.device)
outputs = model.generate(inputs, max_length=20)
output_text = tokenizer.decode(outputs[0])
print(output_text)
软件集成
运行时引擎:
支持的硬件微架构兼容性:
- NVIDIA安培架构
- NVIDIA Blackwell架构
- NVIDIA Hopper架构
- NVIDIA Lovelace架构
[首选/支持]操作系统:
数据集与训练
数据集收集方法: 自动化
数据集标注方法: 不适用
属性:
Llama-3.1-Minitron-4B-Width-Base的训练语料库包含英语和多语言文本以及代码。我们的数据来源涵盖多种文档类型,如:网页、对话、文章和其他书面材料。语料库涵盖的领域包括法律、数学、科学、金融等。在我们的持续训练集中,我们引入了一小部分问答和对齐风格的数据以提高模型性能。
数据新鲜度: 预训练数据的截止时间为2023年6月。
评估结果
概述
5-shot性能. 使用大规模多任务语言理解评估语言理解能力:
零样本性能. 使用LM评估工具中的选定数据集及附加内容进行评估:
HellaSwag |
Winogrande |
GSM8K |
ARC挑战 |
XLSum |
76.1 |
73.5 |
41.2 |
55.6 |
28.7 |
代码生成性能. 使用MBPP评估:
推理
引擎: TensorRT-LLM
测试硬件: NVIDIA A100
数据类型: BFloat16
局限性
该模型训练数据包含从互联网爬取的含有毒性语言、不安全内容和社会偏见的内容。因此,模型可能会放大这些偏见,并在提示包含毒性内容时返回毒性响应。即使提示本身不包含任何明显冒犯性内容,模型也可能生成不准确、遗漏关键信息或包含无关或冗余文本的答案,产生社会不可接受或不良的文本。
伦理考量
NVIDIA认为可信赖的AI是一项共同责任,我们已制定政策和实践以支持广泛AI应用的开发。在下载或使用本模型时,开发者应与其内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决意外的产品滥用问题。
请在此链接报告安全漏洞或NVIDIA AI相关问题。
参考文献