Meta开源Llama 4 Maverick多模态AI模型 - 支持图文理解与多语言代码生成

首页

Meta Llama Llama 4 Maverick 17B 128E Instruct

由 Undi95 开发

Llama 4 Maverick 是 Meta 发布的多模态 AI 模型，支持文本与图像理解，采用混合专家架构（MoE），在多语言文本和代码生成任务中表现优异。

多模态融合

Transformers

支持多种语言开源协议:其他 #多模态专家模型 #超长上下文理解 #多语言生成

下载量 35

发布时间 : 4/5/2025

模型简介

Llama 4 Maverick 是一款高效的多模态大语言模型，支持 12 种语言，具备强大的文本和图像理解能力，适用于商业与研究用途。

模型特点

多模态支持

支持文本和图像输入，能够进行跨模态理解和生成。

混合专家架构

采用 128 专家混合架构，提升模型效率和性能。

多语言能力

支持 12 种语言，适用于全球化应用场景。

高效量化

支持 BF16 和 FP8 量化，便于单机部署。

模型能力

多语言文本生成

图像理解与描述

代码生成

多模态推理

对话系统

使用案例

商业应用

多语言客服助手

为企业提供多语言支持的智能客服，提升用户体验。

支持 12 种语言的流畅对话，减少人工客服成本。

视觉推理应用

用于图像识别和描述，适用于电商、医疗等领域。

在 DocVQA 基准测试中达到 91.6 分。

研究与开发

AI 模型蒸馏

利用 Llama 4 生成合成数据，用于训练更小的模型。

提升小模型性能，降低训练成本。

自然语言生成研究

用于探索多语言文本生成的先进技术。

在 MMLU 基准测试中达到 85.5 分。

🚀 Llama 4模型

Llama 4系列模型是原生多模态AI模型，支持文本和多模态交互体验。这些模型采用混合专家架构，在文本和图像理解方面展现出行业领先的性能。

🚀 快速开始

安装依赖

请确保你已安装 transformers v4.51.0，若未安装，可使用以下命令进行升级：

pip install -U transformers

代码示例

from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"

processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    attn_implementation="flex_attention",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": url1},
            {"type": "image", "url": url2},
            {"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
        ]
    },
]

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(
    **inputs,
    max_new_tokens=256,
)

response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])

✨ 主要特性

多模态体验：原生支持文本和多模态交互，可处理图像和文本输入。
混合专家架构：采用混合专家（MoE）架构，在文本和图像理解方面表现出色。
多语言支持：支持阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语等多种语言。
高性能表现：在多个基准测试中展现出优于前代模型的性能。

📦 安装指南

请确保你已安装 transformers v4.51.0，若未安装，可使用以下命令进行升级：

pip install -U transformers

💻 使用示例

基础用法

from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"

processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    attn_implementation="flex_attention",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": url1},
            {"type": "image", "url": url2},
            {"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
        ]
    },
]

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(
    **inputs,
    max_new_tokens=256,
)

response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])

📚 详细文档

模型信息

模型开发者：Meta
模型架构：Llama 4模型是自回归语言模型，采用混合专家（MoE）架构，并集成早期融合技术以实现原生多模态。

属性	详情
模型类型	Llama 4 Scout (17Bx16E)、Llama 4 Maverick (17Bx128E)
训练数据	公开可用数据、授权数据以及Meta产品和服务中的信息，包括Instagram和Facebook上的公开帖子以及用户与Meta AI的交互。更多信息请参考隐私中心
参数量	Llama 4 Scout：激活参数17B，总参数109B；Llama 4 Maverick：激活参数17B，总参数400B
输入模态	多语言文本和图像
输出模态	多语言文本和代码
上下文长度	Llama 4 Scout：10M；Llama 4 Maverick：1M
标记数量	Llama 4 Scout：~40T；Llama 4 Maverick：~22T
知识截止日期	2024年8月

预期用途

预期用例：Llama 4适用于多语言商业和研究用途。指令微调模型适用于类似助手的聊天和视觉推理任务，而预训练模型可用于自然语言生成。在视觉方面，Llama 4模型还针对视觉识别、图像推理、图像描述和回答关于图像的一般问题进行了优化。Llama 4模型系列还支持利用其模型输出改进其他模型，包括合成数据生成和蒸馏。Llama 4社区许可证允许这些用例。
超出范围的使用：以任何违反适用法律法规（包括贸易合规法律）的方式使用；以可接受使用政策和Llama 4社区许可证禁止的任何其他方式使用；使用超出本模型卡片明确支持的语言或功能。

硬件和软件

训练因素：使用自定义训练库、Meta的自定义GPU集群和生产基础设施进行预训练。微调、量化、注释和评估也在生产基础设施上进行。
训练能源使用：模型预训练在H100 - 80GB（TDP为700W）类型的硬件上累计使用了738万个GPU小时的计算资源。训练时间是每个模型训练所需的总GPU时间，功耗是所用每个GPU设备的峰值功率容量，并根据电源使用效率进行了调整。
训练温室气体排放：估计基于位置的总温室气体排放量为1999吨CO2eq。自2020年以来，Meta在其全球运营中保持净零温室气体排放，并以清洁能源和可再生能源匹配其100%的电力使用；因此，基于市场的训练总温室气体排放量为0吨CO2eq。

模型名称	训练时间（GPU小时）	训练功耗（W）	基于位置的训练温室气体排放（吨CO2eq）
Llama 4 Scout	5.0M	700	1354
Llama 4 Maverick	2.38M	700	645
总计	7.38M	-	1999

基准测试

预训练模型

类别	基准测试	样本数量	指标	Llama 3.1 70B	Llama 3.1 405B	Llama 4 Scout	Llama 4 Maverick
推理与知识	MMLU	5	macro_avg/acc_char	79.3	85.2	79.6	85.5
	MMLU-Pro	5	macro_avg/em	53.8	61.6	58.2	62.9
	MATH	4	em_maj1@1	41.6	53.5	50.3	61.2
代码	MBPP	3	pass@1	66.4	74.4	67.8	77.6
多语言	TydiQA	1	average/f1	29.9	34.3	31.5	31.7
图像	ChartQA	0	relaxed_accuracy	不支持多模态		83.4	85.3
	DocVQA	0	anls			89.4	91.6

指令微调模型

类别	基准测试	样本数量	指标	Llama 3.3 70B	Llama 3.1 405B	Llama 4 Scout	Llama 4 Maverick
图像推理	MMMU	0	准确率	不支持多模态		69.4	73.4
	MMMU Pro^	0	准确率			52.2	59.6
	MathVista	0	准确率			70.7	73.7
图像理解	ChartQA	0	relaxed_accuracy			88.8	90.0
	DocVQA (测试)	0	anls			94.4	94.4
编码	LiveCodeBench (2024年10月1日 - 2025年2月1日)	0	pass@1	33.3	27.7	32.8	43.4
推理与知识	MMLU Pro	0	macro_avg/em	68.9	73.4	74.3	80.5
	GPQA Diamond	0	准确率	50.5	49.0	57.2	69.8
多语言	MGSM	0	average/em	91.1	91.6	90.6	92.3
长上下文	MTOB (半本书) eng->kgv/kgv->eng	-	chrF	上下文窗口为128K		42.2/36.6	54.0/46.4
	MTOB (整本书) eng->kgv/kgv->eng	-	chrF			39.7/36.3	50.8/46.7

^MMMU Pro报告的数字是标准和视觉任务的平均值

量化

Llama 4 Scout模型以BF16权重发布，但可以通过即时int4量化适配单个H100 GPU；Llama 4 Maverick模型以BF16和FP8量化权重发布。FP8量化权重可以在单个H100 DGX主机上运行，同时保持质量。我们还提供了即时int4量化的代码，以最大限度地减少性能下降。

保障措施

模型级微调

微调数据：采用多方面的数据收集方法，将供应商提供的人工生成数据与合成数据相结合，以降低潜在的安全风险。开发了许多基于大语言模型（LLM）的分类器，以便精心选择高质量的提示和响应，加强数据质量控制。
拒绝率：在Llama 3模型的基础上，我们非常重视降低Llama 4模型对良性提示的拒绝率。在安全数据策略中包括了边界和对抗性提示，并修改了安全数据响应以遵循语气指南。
语气：扩展了在Llama 3上关于拒绝语气的工作，使模型听起来更自然。目标是去除说教和过度道德化的语言，并纠正格式问题，包括正确使用标题、列表、表格等。
系统提示：Llama 4是一个更易于引导的模型，这意味着可以轻松调整响应以满足特定的开发者需求。有效的系统提示可以显著提高大语言模型的性能。特别是，我们发现使用系统提示可以有效地减少错误拒绝和大语言模型中常见的模板化或“说教式”语言模式。它们还可以提高对话性和正确使用格式。

Llama 4系统保护

我们为社区提供了系统级的保护措施，如Llama Guard、Prompt Guard和Code Shield，开发者应将这些措施与Llama模型或其他大语言模型一起部署。我们所有的参考实现演示默认都包含这些保障措施，以便开发者可以立即从系统级安全中受益。

评估

我们对Llama模型进行了常见用例和特定能力的评估。常见用例评估衡量了大多数常见应用（包括聊天机器人、视觉问答）系统的安全风险。我们构建了专门的对抗性评估数据集，并评估了由Llama模型和Llama Guard 3组成的系统，以过滤输入提示和输出响应。在上下文中评估应用程序很重要，我们建议为你的用例构建专门的评估数据集。如果与应用程序相关，Prompt Guard和Code Shield也可用。

关键风险

CBRNE（化学、生物、放射、核和爆炸材料）帮助性：为了评估Llama 4与化学和生物武器扩散相关的风险，我们应用了专家设计和其他有针对性的评估，以评估使用Llama 4是否会显著提高恶意行为者计划或实施使用此类武器的攻击的能力。我们还对与该风险领域相关的内容政策违规行为进行了额外的红队测试和评估。
儿童安全：我们首先利用数据过滤等预训练方法来降低模型中的儿童安全风险。为了评估训练后模型的儿童安全风险，一组专家评估了模型产生可能导致儿童安全风险输出的能力。我们利用这些信息进行额外的模型微调，并进行深入的红队测试。我们还扩展了儿童安全评估基准，以涵盖Llama 4的多图像和多语言能力。
网络攻击支持：我们的网络评估调查了Llama 4是否有足够的能力导致灾难性的威胁场景结果。我们进行了威胁建模练习，以确定在技能水平和速度方面，跨关键攻击向量自动化操作或增强人类能力所需的特定模型能力。然后，我们确定并开发了针对这些能力的挑战，以测试Llama 4和同类模型。具体来说，我们专注于评估Llama 4自动化网络攻击、识别和利用安全漏洞以及自动化有害工作流程的能力。总体而言，我们发现Llama 4模型不会引入可能导致灾难性网络结果的风险。

社区

生成式AI安全需要专业知识和工具，我们相信开放社区的力量可以加速其发展。我们是开放联盟的积极成员，包括AI联盟、AI合作组织和MLCommons，积极为安全标准化和透明度做出贡献。我们鼓励社区采用MLCommons概念验证评估等分类法，以促进安全和内容评估方面的合作和透明度。我们的信任工具已开源供社区使用，并广泛分发给包括云服务提供商在内的生态系统合作伙伴。我们鼓励社区为我们的Github仓库做出贡献。

我们还设立了Llama影响赠款计划，以确定和支持Meta的Llama模型在教育、气候和开放创新三个类别中对社会有益的最有吸引力的应用。数百份申请中的20名决赛选手可以在这里找到。

最后，我们建立了一套资源，包括输出报告机制和漏洞奖励计划，以在社区的帮助下不断改进Llama技术。

注意事项和限制

我们的AI基于言论自由的价值观，帮助人们使用我们的技术进行探索、辩论和创新。我们尊重人们的自主权，使他们能够选择如何体验、交互和构建AI。我们的AI促进思想的开放交流。

Llama 4旨在为所有人服务，并适用于广泛的用例。因此，它设计为对不同背景、经验和观点的人都可访问。Llama 4以用户的实际情况对待他们及其需求，不插入不必要的判断，同时认识到即使在某些情况下可能看起来有问题的内容，在其他情况下也可能有价值。它尊重所有用户的自主权，特别是在推动创新和进步的自由思想和表达价值观方面。

Llama 4是一项新技术，与任何新技术一样，其使用存在风险。到目前为止进行的测试尚未涵盖，也不可能涵盖所有场景。因此，与所有大语言模型一样，Llama 4的潜在输出无法提前预测，并且在某些情况下，模型可能会对用户提示产生不准确或其他令人反感的响应。因此，在部署Llama 4模型的任何应用程序之前，开发者应针对其特定的模型应用进行安全测试和微调。我们还鼓励开源社区将Llama用于研究目的，并构建解决新兴风险的先进工具。请参考可用资源，包括我们的《开发者使用指南：AI保护》、Llama保护解决方案和其他资源以了解更多信息。