许可证:apache-2.0
数据集:
- HuggingFaceM4/OBELICS
- laion/laion-coco
- 维基百科
- facebook/pmd
- pixparse/idl-wds
- pixparse/pdfa-eng-wds
- wendlerc/RenderedText
- HuggingFaceM4/the_cauldron
- teknium/OpenHermes-2.5
- GAIR/lima
- databricks/databricks-dolly-15k
- meta-math/MetaMathQA
- TIGER-Lab/MathInstruct
- microsoft/orca-math-word-problems-200k
- camel-ai/math
- AtlasUnified/atlas-math-sets
- tiedong/goat
- Lin-Chen/ShareGPT4V
- jxu124/llava_conversation_58k
语言:
标签:
/!!!!\ 警告:Idefics2 在 Transformers
版本 4.41.0 至 4.43.3(含)之间无法工作。请参阅问题 https://github.com/huggingface/transformers/issues/32271 和修复 https://github.com/huggingface/transformers/pull/32275。
/!!!!\ 警告:Idefics2 在 Transformers
版本 4.41.0 至 4.43.3(含)之间无法工作。请参阅问题 https://github.com/huggingface/transformers/issues/32271 和修复 https://github.com/huggingface/transformers/pull/32275。
/!!!!\ 警告:Idefics2 在 Transformers
版本 4.41.0 至 4.43.3(含)之间无法工作。请参阅问题 https://github.com/huggingface/transformers/issues/32271 和修复 https://github.com/huggingface/transformers/pull/32275。
/!!!!\ 警告:Idefics2 在 Transformers
版本 4.41.0 至 4.43.3(含)之间无法工作。请参阅问题 https://github.com/huggingface/transformers/issues/32271 和修复 https://github.com/huggingface/transformers/pull/32275。
/!!!!\ 警告:Idefics2 在 Transformers
版本 4.41.0 至 4.43.3(含)之间无法工作。请参阅问题 https://github.com/huggingface/transformers/issues/32271 和修复 https://github.com/huggingface/transformers/pull/32275。
截至 2024 年 4 月 18 日,Idefics2 已包含在 4.40.0
版本的 Transformers PyPI 发布中。请升级您的 Transformers 版本(pip install transformers --upgrade
)。
Idefics2
Idefics2 是一个开源的多模态模型,能够接受任意序列的图像和文本输入,并生成文本输出。该模型可以回答关于图像的问题、描述视觉内容、基于多张图像创作故事,或者在没有视觉输入的情况下作为纯语言模型运行。它在 Idefics1 的基础上进行了显著改进,特别是在 OCR、文档理解和视觉推理方面的能力得到了大幅提升。
我们根据 Apache 2.0 许可证发布了 2 个检查点:
模型概述
用途
idefics2-8b-base
和 idefics2-8b
可用于执行多模态(图像+文本)任务的推理,其中输入由文本查询和一张(或多张)图像组成。文本和图像可以任意交错排列。这包括图像描述、视觉问答等任务。这些模型不支持图像生成。
为了获得最佳效果,我们建议在特定用例和数据上对 idefics2-8b
进行微调。实际上,经过指令微调的模型(idefics2-8b
)在遵循用户指令方面表现更好,因此在直接使用模型或作为微调起点时应优先选择。
idefics2-8b
通常生成非常简短的答案。如果需要生成长文本,请使用 idefics2-8b-chatty
,该模型在长对话数据上进行了进一步微调。
作为起点,我们提供了可以针对特定场景进行调整的微调代码:
技术总结
Idefics2 在其规模(80 亿参数)下与其他开源多模态模型相比表现出色,并且通常能与闭源系统竞争。因此,它是各种特定用例微调的强大基础。
更多细节,展开结果表。
模型 |
开放权重 |
大小 |
每张图像的 token 数量 |
MMMU (验证/测试) |
MathVista (测试迷你) |
TextVQA (验证) |
MMBench (测试) |
VQAv2 (测试开发) |
DocVQA (测试) |
DeepSeek-VL |
✅ |
70 亿 |
576 |
36.6/- |
36.1 |
64.4 |
73.2 |
- |
49.6 |
LLaVa-NeXT-Mistral-7B |
✅ |
70 亿 |
2880 |
35.3/- |
37.7 |
65.7 |
68.7 |
82.2 |
- |
LLaVa-NeXT-13B |
✅ |
130 亿 |
2880 |
36.2/- |
35.3 |
67.1 |
70.0 |
82.8 |
- |
LLaVa-NeXT-34B |
✅ |
340 亿 |
2880 |
51.1/44.7 |
46.5 |
69.5 |
79.3 |
83.7 |
- |
MM1-Chat-7B |
❌ |
70 亿 |
720 |
37.0/35.6 |
35.9 |
72.8 |
72.3 |
- |
- |
MM1-Chat-30B |
❌ |
300 亿 |
720 |
44.7/40.3 |
39.4 |
73.5 |
75.1 |
83.7 |
|
Gemini 1.0 Pro |
❌ |
🤷♂️ |
🤷♂️ |
47.9/- |
45.2 |
74.6 |
- |
71.2 |
88.1 |
Gemini 1.5 Pro |
❌ |
🤷♂️ |
🤷♂️ |
58.5/- |
52.1 |
73.5 |
- |
73.2 |
86.5 |
Claude 3 Haiku |
❌ |
🤷♂️ |
🤷♂️ |
50.2/- |
46.4 |
- |
- |
- |
88.8 |
|
|
|
|
|
|
|
|
|
|
Idefics1 instruct (32-shots) |
✅ |
800 亿 |
- |
- |
- |
39.3 |
- |
68.8 |
- |
|
|
|
|
|
|
|
|
|
|
Idefics2 (无图像分割) |
✅ |
80 亿 |
64 |
43.5/37.9 |
51.6 |
70.4 |
76.8 |
80.8 |
67.3 |
Idefics2 (带图像分割) |
✅ |
80 亿 |
320 |
43.0/37.7 |
51.4 |
73.0 |
76.7 |
81.2 |
74.0 |
Idefics2 相对于 Idefics1 进行了多项精心设计的改进:
- 我们通过遵循 NaViT 策略,以原生分辨率(最高 980 x 980)和原生宽高比处理图像。这避免了传统计算机视觉领域中将图像调整为固定大小正方形的需求。此外,我们遵循 SPHINX 的策略,(可选地)允许子图像分割和传递非常高分辨率的图像。
- 我们通过整合需要模型转录图像或文档中文本的数据,显著增强了OCR 能力。我们还通过适当的训练数据提高了回答图表、图形和文档问题的能力。
- 我们摒弃了 Idefics1 的架构(门控交叉注意力),并简化了视觉特征与语言主干的集成。图像被输入到视觉编码器,然后经过学习的 Perceiver