模型详情
Meta开发并发布了Meta Llama 3系列大语言模型(LLMs),这是一组包含80亿和700亿参数的预训练及指令微调生成式文本模型。Llama 3指令微调模型针对对话场景优化,在行业常见基准测试中超越了许多开源聊天模型。在开发过程中,我们特别注重优化模型的实用性和安全性。
模型开发者 Meta
版本变体 Llama 3提供80亿和700亿两种参数规模,包含预训练和指令微调版本
输入 仅接受文本输入
输出 仅生成文本和代码
模型架构 Llama 3采用优化的Transformer架构自回归语言模型。微调版本使用监督微调(SFT)和基于人类反馈的强化学习(RLHF)来对齐人类偏好。
系列 |
训练数据 |
参数量 |
上下文长度 |
GQA |
训练token数 |
知识截止时间 |
Llama 3 |
公开网络数据混合 |
8B |
8k |
支持 |
15T+ |
2023年3月 |
|
|
70B |
8k |
支持 |
|
2023年12月 |
模型发布时间 2024年4月18日
状态 基于离线数据训练的静态模型,后续将通过社区反馈持续改进安全性
许可协议 定制商业许可详见:官网许可链接
技术咨询 请参阅模型README和应用指南
使用场景
适用领域
- 商业与研究领域的英语应用
- 指令微调版适用于助手类对话
- 预训练版可适配多种文本生成任务
限制范围
- 违反法律法规的使用
- 违反《可接受使用政策》的行为
- 非英语场景(开发者可自行微调但需遵守协议)
使用方式
Transformers集成
import transformers
pipeline = transformers.pipeline(
"text-generation",
model="meta-llama/Meta-Llama-3-8B-Instruct",
device_map="auto"
)
from transformers import AutoTokenizer, AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("meta-llama/Meta-Llama-3-8B-Instruct")
原生代码库
需遵循GitHub仓库说明,下载命令示例:
huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct --include "original/*"
硬件与碳排放
训练资源
- 使用定制训练库和Meta研究超级计算机
- 预训练累计消耗770万GPU小时(H100-80GB)
- 总碳排放2290吨CO2当量(已通过Meta碳中和计划全额抵消)
模型 |
GPU小时 |
单卡功耗(W) |
碳排放(吨) |
8B |
130万 |
700 |
390 |
70B |
640万 |
700 |
1900 |
训练数据
- 预训练数据:超过15万亿token的公开数据
- 微调数据:包含1000万人工标注样本
- 数据时效:8B版截至2023年3月,70B版截至2023年12月
性能基准
基础模型表现
类别 |
测试项 |
Llama3 8B |
Llama2 7B |
Llama3 70B |
综合 |
MMLU |
66.6 |
45.7 |
79.5 |
知识 |
TriviaQA |
78.5 |
72.1 |
89.7 |
阅读 |
SQuAD |
76.4 |
72.2 |
85.6 |
指令微调模型
测试项 |
Llama3 8B |
Llama2 7B |
Llama3 70B |
HumanEval |
62.2 |
7.9 |
81.7 |
GSM-8K |
79.6 |
25.7 |
93.0 |
安全与责任
安全措施
关键风险评估
- CBRNE(化生放核爆)领域专家测试
- 网络安全评估(通过CyberSecEval套件)
- 儿童安全专项评估
伦理考量
Llama 3作为新兴技术存在潜在风险:
- 当前测试仅限英语环境
- 可能产生不准确/偏见性输出
- 建议部署前进行应用场景专项安全测试
推荐结合责任使用指南和Purple Llama工具链。
贡献者
(完整名单参见原文)
引用格式
@article{llama3modelcard,
title={Llama 3 Model Card},
author={AI@Meta},
year={2024},
url={https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}