模型信息
Llama 3.2-Vision多模态大语言模型(LLMs)系列包含11B和90B两种规模的预训练及指令调优图像推理生成模型(文本+图像输入/文本输出)。经过指令调优的Llama 3.2-Vision模型在视觉识别、图像推理、图像描述和图像问答任务上表现优异,在行业常见基准测试中超越多数开源和闭源多模态模型。
开发机构: Meta
架构设计:
Llama 3.2-Vision基于纯文本模型Llama 3.1构建,采用优化的transformer自回归架构。调优版本通过监督微调(SFT)和人类反馈强化学习(RLHF)实现与人类价值观的对齐。为支持图像识别任务,模型采用独立训练的视觉适配器与预训练语言模型集成,该适配器由交叉注意力层构成,负责将图像编码表征输入核心LLM。
参数 |
训练数据 |
参数量 |
输入模态 |
输出模态 |
上下文长度 |
GQA |
数据量 |
知识截止 |
Llama 3.2-Vision |
(图像,文本)对 |
11B(10.6) |
文本+图像 |
文本 |
128k |
支持 |
60亿对 |
2023年12月 |
Llama 3.2-Vision |
(图像,文本)对 |
90B(88.8) |
文本+图像 |
文本 |
128k |
支持 |
60亿对 |
2023年12月 |
支持语言:
纯文本任务支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。实际训练语言范围超出这8种官方支持语言。注意图像+文本应用仅支持英语。开发者可在遵守Llama 3.2社区许可和《可接受使用政策》前提下微调其他语言版本。
模型家族: Llama 3.2系列均采用分组查询注意力(GQA)机制提升推理扩展性
发布日期: 2024年9月25日
状态: 基于离线数据的静态模型,未来可能发布改进版本
许可协议: Llama 3.2社区许可证
反馈渠道: 技术问题请参阅README,应用开发指南见llama-recipes
预期用途
适用场景:
Llama 3.2-Vision适用于商业和研究用途,指令调优版专精于:
- 视觉问答(VQA)与图像推理
- 文档视觉问答(DocVQA)
- 图像描述生成
- 图文检索匹配
- 视觉定位任务
同时支持模型输出用于改进其他AI系统(如合成数据生成与蒸馏),该用途受社区许可证允许。
限制范围:
• 违反法律法规的使用
• 超出《可接受使用政策》的行为
• 非本卡片明确支持的语言场景
使用指南
本仓库提供两种格式的Llama-3.2-90B-Vision-Instruct模型:
Transformers调用方式
(需4.45.0及以上版本)
import requests
import torch
from PIL import Image
from transformers import MllamaForConditionalGeneration, AutoProcessor
model = MllamaForConditionalGeneration.from_pretrained(
"meta-llama/Llama-3.2-90B-Vision-Instruct",
torch_dtype=torch.bfloat16,
device_map="auto"
)
processor = AutoProcessor.from_pretrained(model_id)
messages = [{"role":"user", "content":[
{"type":"image"},
{"type":"text", "text":"为这张图片写首俳句:"}
]}
inputs = processor(Image.open("rabbit.jpg"), apply_chat_template(messages), ...)
print(processor.decode(model.generate(**inputs, max_new_tokens=30)))
原生代码库调用
请遵循llama仓库指南,通过huggingface-cli下载原始检查点:
huggingface-cli download meta-llama/Llama-3.2-90B-Vision-Instruct --include "original/*"
硬件与能耗
训练配置:
使用定制训练库、Meta自建GPU集群及生产级基础设施完成预训练与调优。
能耗数据:
• 总计算量: 202万GPU小时(H100-80GB)
• 碳排放: 基于地理位置估算584吨CO2当量
(注:Meta自2020年起通过可再生能源实现运营净零排放)
模型 |
训练阶段 |
GPU小时 |
功率(W) |
基于位置排放(吨) |
11B版 |
预训练+调优 |
24.6万 |
700 |
71 |
90B版 |
预训练+调优 |
177.5万 |
700 |
513 |
详细计算方法参见论文
训练数据
数据概况:
• 预训练数据: 60亿图文对(截至2023年12月)
• 指令数据: 包含公开视觉指令集及300万合成样本
基准测试
基础模型表现
能力类别 |
测试集 |
11B准确率 |
90B准确率 |
图像理解 |
VQAv2 |
66.8% |
73.6% |
文档解析 |
DocVQA |
62.3 ANLS |
70.7 ANLS |
图表推理 |
ChartQA |
39.4% |
54.2% |
指令调优版表现
模态 |
测试集 |
11B得分 |
90B得分 |
图像 |
MMMU |
50.7% |
60.3% |
图文 |
MathVista |
51.5% |
57.3% |
文本 |
MMLU |
73.0% |
86.0% |
责任与安全
我们采用三维策略管理风险:
- 开发者赋能: 提供安全灵活的部署方案
- 对抗防护: 防范恶意用户攻击
- 社区保护: 预防模型滥用
关键措施
• 安全微调: 融合人工标注与合成数据,优化拒绝响应机制
• 系统防护: 推荐集成Llama Guard等安全组件
• 红队测试: 联合网络安全、机器学习伦理等领域专家进行对抗评估
重点风险管控
- 大规模杀伤性武器: 专项评估未发现图像能力带来科学风险提升
- 儿童安全: 扩展多语言违规内容检测能力
- 网络攻击: 验证自主执行复杂攻击的可行性
伦理考量
核心价值:
坚持开放、包容、有益的原则,尊重思想自由与表达多样性。
使用注意:
Llama 3.2作为新技术存在不可预见的输出风险,开发者应:
• 针对具体应用场景进行安全测试
• 参考责任使用指南
• 利用信任与安全工具包
我们持续通过漏洞赏金计划和社区反馈完善模型安全性。