模型信息
Llama 3.2-Vision多模态大语言模型(LLMs)系列包含11B和90B两种参数规模的预训练及指令调优图像推理生成模型(支持图像+文本输入/文本输出)。该系列指令调优模型专为视觉识别、图像推理、图像描述和图像问答任务优化,在行业常见基准测试中表现优于多数开源与闭源多模态模型。
开发者:Meta
架构:基于纯文本模型Llama 3.1构建,采用自回归架构和优化的Transformer结构。调优版本使用监督微调(SFT)和人类反馈强化学习(RLHF)以符合人类偏好。视觉功能通过独立训练的视觉适配器实现,该适配器由交叉注意力层构成,可将图像编码器表征输入核心LLM。
|
训练数据 |
参数量 |
输入模态 |
输出模态 |
上下文长度 |
GQA |
数据量 |
知识截止 |
11B版 |
图文配对 |
10.6B |
文本+图像 |
文本 |
128k |
支持 |
60亿图文对 |
2023年12月 |
90B版 |
图文配对 |
88.8B |
文本+图像 |
文本 |
128k |
支持 |
60亿图文对 |
2023年12月 |
支持语言:纯文本任务支持英、德、法、意、葡、印地、西、泰8种语言,实际训练涵盖更广语种。图文应用仅支持英语。开发者可针对其他语言微调,但需遵守Llama 3.2社区许可和《可接受使用政策》。
模型家族:所有版本均采用分组查询注意力(GQA)提升推理效率
发布日期:2024年9月25日
状态:静态离线训练模型,未来可能发布改进版本
许可:受Llama 3.2社区许可约束
反馈渠道:可通过GitHub提交意见,技术文档详见llama-recipes
预期用途
适用场景:
- 视觉问答与推理:理解图像内容并回答相关问题
- 文档视觉问答:解析合同/地图等文档图文信息
- 图像描述生成:用自然语言描述图像场景
- 图文检索:建立图像与文本描述的关联检索
- 视觉定位:根据语言描述定位图像特定区域
- 支持合成数据生成与模型蒸馏等衍生应用
限制范围:
- 违反法律法规的使用
- 超出《可接受使用政策》的行为
- 非指定支持语言的场景
使用方法
Transformers调用(需4.45.0+版本)
import requests
import torch
from PIL import Image
from transformers import MllamaForConditionalGeneration, AutoProcessor
model = MllamaForConditionalGeneration.from_pretrained(
"meta-llama/Llama-3.2-90B-Vision",
torch_dtype=torch.bfloat16,
device_map="auto"
)
processor = AutoProcessor.from_pretrained(model_id)
image = Image.open(requests.get("https://example.com/rabbit.jpg", stream=True).raw)
inputs = processor(image, "<|image|><|begin_of_text|>为这张图写俳句", return_tensors="pt").to(model.device)
print(processor.decode(model.generate(**inputs, max_new_tokens=30)[0]))
原生代码库调用
通过huggingface-cli下载原始检查点:
huggingface-cli download meta-llama/Llama-3.2-90B-Vision --include "original/*" --local-dir Llama-3.2-90B-Vision
硬件与能耗
训练资源:使用Meta自研GPU集群及训练库
总能耗:累计202万H100-80GB GPU小时(单卡TDP 700W)
碳排放:基于地理位置估算584吨CO2当量,实际通过可再生能源抵消实现净零排放
|
训练时长(GPU小时) |
单卡功耗(W) |
地域碳排放(吨CO2) |
市场碳排放(吨CO2) |
11B模型 |
预训练14.7万+退火9.8万+微调896+RLHF 224 |
700 |
71 |
0 |
90B模型 |
预训练88.5万+退火88.5万+微调3072+RLHF 2048 |
700 |
513 |
0 |
训练数据
基础数据:60亿图文配对(截至2023年12月)
微调数据:包含300万以上合成样本的公开视觉指令数据集
基准测试
预训练模型表现
类别 |
测试集 |
指标 |
11B成绩 |
90B成绩 |
图像理解 |
VQAv2 |
准确率 |
66.8 |
73.6 |
文档理解 |
DocVQA |
ANLS |
62.3 |
70.7 |
图表推理 |
ChartQA |
准确率 |
39.4 |
54.2 |
指令调优模型表现
模态 |
能力 |
测试集 |
11B成绩 |
90B成绩 |
图像 |
大学级推理 |
MMMU |
50.7 |
60.3 |
|
图表理解 |
ChartQA |
83.4 |
85.5 |
文本 |
通用知识 |
MMLU |
73.0 |
86.0 |
|
数学能力 |
MATH |
51.9 |
68.0 |
责任与安全
三层防护策略:
- 基础安全调优:采用与Llama 3相同安全缓解措施
- 系统级防护:建议部署时集成Llama Guard等安全组件
- 社区联防:建立漏洞赏金计划和输出反馈机制
专项风险评估:
- CBRNE武器:未发现图像能力带来科学能力提升风险
- 儿童安全:通过专家红队测试强化防护
- 网络攻击:视觉能力未增加新型网络威胁
伦理准则:坚持开放、包容、有益的核心价值观,建议开发者根据具体应用场景进行安全测试。提供《负责任使用指南》等资源指导安全部署。
注:本卡片内容可能随模型更新而调整,建议定期查看官方GitHub获取最新信息。