🚀 Llama 4模型
Llama 4是一系列原生多模态AI模型,支持文本和多模态交互体验。这些模型采用混合专家架构,在文本和图像理解方面表现卓越,开启了Llama生态系统的新纪元。
🚀 快速开始
安装依赖
请确保你已安装transformers v4.51.0
,或使用以下命令进行升级:
pip install -U transformers
代码示例
from transformers import pipeline
import torch
model_id = "meta-llama/Llama-4-Scout-17B-16E"
pipe = pipeline(
"text-generation",
model=model_id,
device_map="auto",
torch_dtype=torch.bfloat16,
)
output = pipe("Roses are red,", max_new_tokens=200)
✨ 主要特性
- 多语言支持:支持阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语等多种语言。
- 多模态体验:原生支持文本和图像理解,可用于视觉识别、图像推理、图像描述等任务。
- 卓越性能:采用混合专家(MoE)架构,在文本和图像理解方面表现出色。
- 灵活部署:提供量化检查点,支持在不同硬件上灵活部署。
📦 安装指南
请确保你已安装transformers v4.51.0
,或使用以下命令进行升级:
pip install -U transformers
💻 使用示例
基础用法
from transformers import pipeline
import torch
model_id = "meta-llama/Llama-4-Scout-17B-16E"
pipe = pipeline(
"text-generation",
model=model_id,
device_map="auto",
torch_dtype=torch.bfloat16,
)
output = pipe("Roses are red,", max_new_tokens=200)
📚 详细文档
模型信息
属性 |
详情 |
模型开发者 |
Meta |
模型架构 |
自回归语言模型,采用混合专家(MoE)架构,支持原生多模态 |
训练数据 |
混合了公开可用数据、授权数据以及Meta产品和服务中的信息,包括Instagram和Facebook上的公开帖子以及用户与Meta AI的交互 |
支持语言 |
阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语 |
模型发布日期 |
2025年4月5日 |
状态 |
静态模型,基于离线数据集训练。未来可能会根据社区反馈发布调优版本 |
许可证 |
Llama 4社区许可协议 |
预期用途
- 商业和研究用途:支持多语言的商业和研究应用。
- 指令调优模型:适用于类似助手的聊天和视觉推理任务。
- 预训练模型:可用于自然语言生成。
- 视觉任务:优化了视觉识别、图像推理、图像描述和图像问答等任务。
- 模型改进:支持利用其输出结果改进其他模型,包括合成数据生成和蒸馏。
硬件和软件
- 训练因素:使用自定义训练库、Meta定制的GPU集群和生产基础设施进行预训练。微调、量化、标注和评估也在生产基础设施上进行。
- 训练能耗:模型预训练在H100 - 80GB(TDP为700W)类型的硬件上累计使用了738万个GPU小时的计算资源。
- 训练温室气体排放:基于位置的估计总温室气体排放量为1999吨CO2eq。自2020年以来,Meta在全球运营中保持净零温室气体排放,并使用100%的清洁和可再生能源匹配其电力使用,因此基于市场的总温室气体排放量为0吨CO2eq。
训练数据
- 概述:Llama 4 Scout在约40万亿个多模态数据令牌上进行预训练,Llama 4 Maverick在约22万亿个多模态数据令牌上进行预训练。数据来源包括公开可用数据、授权数据以及Meta产品和服务中的信息。
- 数据新鲜度:预训练数据截止到2024年8月。
基准测试
预训练模型
类别 |
基准测试 |
样本数 |
指标 |
Llama 3.1 70B |
Llama 3.1 405B |
Llama 4 Scout |
Llama 4 Maverick |
推理与知识 |
MMLU |
5 |
macro_avg/acc_char |
79.3 |
85.2 |
79.6 |
85.5 |
|
MMLU - Pro |
5 |
macro_avg/em |
53.8 |
61.6 |
58.2 |
62.9 |
|
MATH |
4 |
em_maj1@1 |
41.6 |
53.5 |
50.3 |
61.2 |
代码 |
MBPP |
3 |
pass@1 |
66.4 |
74.4 |
67.8 |
77.6 |
多语言 |
TydiQA |
1 |
average/f1 |
29.9 |
34.3 |
31.5 |
31.7 |
图像 |
ChartQA |
0 |
relaxed_accuracy |
不支持多模态 |
|
83.4 |
85.3 |
|
DocVQA |
0 |
anls |
|
|
89.4 |
91.6 |
指令调优模型
类别 |
基准测试 |
样本数 |
指标 |
Llama 3.3 70B |
Llama 3.1 405B |
Llama 4 Scout |
Llama 4 Maverick |
图像推理 |
MMMU |
0 |
准确率 |
不支持多模态 |
|
69.4 |
73.4 |
|
MMMU Pro^ |
0 |
准确率 |
|
|
52.2 |
59.6 |
|
MathVista |
0 |
准确率 |
|
|
70.7 |
73.7 |
图像理解 |
ChartQA |
0 |
relaxed_accuracy |
|
|
88.8 |
90.0 |
|
DocVQA (测试) |
0 |
anls |
|
|
94.4 |
94.4 |
编码 |
LiveCodeBench (2024年10月1日 - 2025年2月1日) |
0 |
pass@1 |
33.3 |
27.7 |
32.8 |
43.4 |
推理与知识 |
MMLU Pro |
0 |
macro_avg/acc |
68.9 |
73.4 |
74.3 |
80.5 |
|
GPQA Diamond |
0 |
准确率 |
50.5 |
49.0 |
57.2 |
69.8 |
多语言 |
MGSM |
0 |
average/em |
91.1 |
91.6 |
90.6 |
92.3 |
长上下文 |
MTOB (半本书) eng->kgv/kgv->eng |
- |
chrF |
上下文窗口为128K |
|
42.2/36.6 |
54.0/46.4 |
|
MTOB (整本书) eng->kgv/kgv->eng |
- |
chrF |
|
|
39.7/36.3 |
50.8/46.7 |
^MMMU Pro的报告数据是标准任务和视觉任务的平均值
量化
- Llama 4 Scout模型以BF16权重发布,但可以通过即时int4量化适配单个H100 GPU。
- Llama 4 Maverick模型以BF16和FP8量化权重发布。FP8量化权重可以在单个H100 DGX主机上运行,同时保持模型质量。
安全保障
模型级微调
- 微调数据:采用多方面的数据收集方法,结合供应商提供的人工生成数据和合成数据,以降低潜在安全风险。
- 拒绝率:在Llama 3模型的基础上,着重降低模型对良性提示的拒绝率。
- 语气:改进模型的拒绝语气,使其听起来更自然,避免说教和过度道德化的语言。
- 系统提示:Llama 4是一个更易于控制的模型,通过有效的系统提示可以显著提高模型性能,减少误拒绝和模板化语言。
Llama 4系统保护
提供系统级的保护措施,如Llama Guard、Prompt Guard和Code Shield,开发者应将这些保护措施与Llama模型或其他大语言模型一起部署。
评估
- 常见用例评估:评估系统在常见应用场景(如聊天机器人、视觉问答)中的安全风险。
- 能力评估:评估Llama模型在特定能力(如长上下文、多语言、编码或记忆)方面的漏洞。
红队测试
定期进行红队测试,通过对抗性提示发现风险,并利用测试结果改进基准测试和安全调优数据集。
关键风险
- CBRNE(化学、生物、放射、核和爆炸材料)帮助:评估Llama 4在化学和生物武器扩散方面的风险。
- 儿童安全:通过数据过滤等预训练方法降低儿童安全风险,并对训练后的模型进行评估。
- 网络攻击支持:评估Llama 4是否有能力支持灾难性网络攻击场景。
社区
- 安全标准贡献:积极参与开源联盟,为安全标准化和透明度做出贡献。
- 影响赠款计划:设立Llama影响赠款计划,支持对社会有益的应用。
- 资源支持:提供输出报告机制和漏洞赏金计划,借助社区力量不断改进Llama技术。
🔧 技术细节
模型架构
Llama 4模型是自回归语言模型,采用混合专家(MoE)架构,并结合早期融合技术实现原生多模态支持。
训练数据
训练数据混合了公开可用数据、授权数据以及Meta产品和服务中的信息,包括Instagram和Facebook上的公开帖子以及用户与Meta AI的交互。
量化技术
Llama 4 Scout模型支持即时int4量化,Llama 4 Maverick模型提供BF16和FP8量化权重。
📄 许可证
本模型使用Llama 4社区许可协议。
⚠️ 重要提示
- Llama 4是一项新技术,使用时存在一定风险。在部署任何应用之前,开发者应针对具体应用进行安全测试和调优。
- 模型的潜在输出无法提前预测,在某些情况下可能会产生不准确或其他令人反感的响应。
💡 使用建议
- 建议开发者根据具体应用场景构建专用的评估数据集。
- 鼓励开源社区使用Llama进行研究,并构建解决新兴风险的先进工具。