模型信息
Meta Llama 3.1 多语言大语言模型(LLMs)系列包含8B、70B和405B三种规模的预训练及指令调优生成模型(文本输入/输出)。Llama 3.1纯文本指令调优模型(8B、70B、405B)针对多语言对话场景优化,在主流行业基准测试中超越多数开源和闭源聊天模型。
开发方:Meta
架构:Llama 3.1采用自回归语言模型架构,基于优化的Transformer。调优版本通过监督微调(SFT)和人类反馈强化学习(RLHF)实现与人类偏好的对齐。
模型类型 |
训练数据 |
参数量 |
输入模态 |
输出模态 |
上下文长度 |
GQA |
训练token量 |
知识截止时间 |
Llama 3.1纯文本 |
新型公开网络数据混合 |
8B |
多语言文本 |
多语言文本与代码 |
128k |
支持 |
15T+ |
2023年12月 |
|
|
70B |
多语言文本 |
多语言文本与代码 |
128k |
支持 |
|
|
|
|
405B |
多语言文本 |
多语言文本与代码 |
128k |
支持 |
|
|
支持语言:英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语、泰语
模型家族:参数量仅含预训练数据,全系列采用分组查询注意力(GQA)提升推理效率
发布日期:2024年7月23日
状态:基于离线数据的静态模型,后续调优版本将根据社区反馈持续优化安全性
许可证:定制商业许可Llama 3.1社区协议,详见许可证链接
技术文档:生成参数说明及应用案例详见Llama食谱
预期用途
适用场景
- 商业与研究领域的多语言应用
- 指令调优模型适用于类助手对话场景
- 预训练模型适配多种自然语言生成任务
- 支持模型输出改进(如合成数据生成与蒸馏)
限制范围
- 违反法律法规的使用(含贸易合规)
- 违反《可接受使用政策》的行为
- 超出8种指定支持语言的场景
(注:Llama 3.1实际训练涵盖语言超过8种,开发者可针对其他语言微调,但需自行确保使用安全)
使用指南
Transformers集成(需4.43.0+版本)
import transformers
import torch
model_id = "meta-llama/Llama-3.1-8B"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto"
)
pipeline("你好,今天过得怎么样?")
原生代码库使用
参考Llama官方仓库说明,通过huggingface-cli下载原始检查点:
huggingface-cli download meta-llama/Llama-3.1-8B --include "original/*" --local-dir Llama-3.1-8B
硬件与训练
训练设施
- 定制训练库
- Meta自建GPU集群
- 累计消耗3930万H100-80GB显卡小时(单卡TDP 700W)
碳排放
- 基于位置的碳排放估算:11,390吨CO2当量
- 实际市场排放:0吨(Meta自2020年起实现全球运营净零排放)
模型 |
训练时长(GPU小时) |
单卡功耗(W) |
基于位置排放(吨CO2) |
市场排放(吨CO2) |
Llama 3.1 8B |
146万 |
700 |
420 |
0 |
70B |
700万 |
700 |
2,040 |
0 |
405B |
3084万 |
700 |
8,930 |
0 |
训练数据
- 预训练数据:约15万亿token公开来源
- 微调数据:公开指令数据集+2500万合成样本
- 数据时效:预训练数据截止2023年12月
基准测试
预训练模型表现
类别 |
测试集 |
样本数 |
指标 |
8B |
70B |
405B |
综合能力 |
MMLU(5样本) |
5 |
宏观准确率 |
66.7 |
79.5 |
85.2 |
知识推理 |
TriviaQA-Wiki |
5 |
精确匹配 |
77.6 |
89.8 |
91.8 |
数学推理 |
GSM-8K(思维链) |
8 |
主要准确率 |
84.5 |
95.1 |
96.8 |
多语言能力(MMLU 5样本)
语言 |
8B准确率 |
70B准确率 |
405B准确率 |
葡萄牙语 |
62.12 |
80.13 |
84.95 |
印地语 |
50.88 |
74.52 |
80.31 |
责任与安全
三重保障策略
- 开发者定制:支持构建符合目标场景的安全体验
- 对抗防护:防范恶意用户滥用
- 社区防护:预防模型误用
关键风险防控
- 生化武器:专项测试评估恶意行为增强可能性
- 儿童安全:专家红队测试多语言场景风险
- 网络安全:评估自主代理执行复杂攻击能力
社区资源
伦理考量
Llama 3.1秉持开放、包容、有益的核心价值观,但需注意:
- 输出结果可能存在不可预测的偏差或不准确性
- 部署前需进行应用场景专项安全测试
- 开发者应建立系统级防护措施
(完整伦理声明参见责任使用指南)