许可证:apache-2.0
许可证名称:qwen
许可证链接:https://huggingface.co/Qwen/Qwen2.5-72B-Instruct/blob/main/LICENSE
管道标签:图像文本到文本
库名称:transformers
基础模型:
- OpenGVLab/InternVL3-1B-Pretrained
基础模型关系:微调
语言:
- 多语言
标签:
- internvl
- 自定义代码
InternVL3-1B-Instruct
[📂 GitHub] [📜 InternVL 1.0] [📜 InternVL 1.5] [📜 InternVL 2.5] [📜 InternVL2.5-MPO] [📜 InternVL3]
[🆕 博客] [🗨️ 聊天演示] [🤗 HF 演示] [🚀 快速开始] [📖 文档]
简介
这是 InternVL3-1B 的监督微调(SFT)版本,经过原生多模态预训练和 SFT,但未进行混合偏好优化(MPO)。如果不确定使用哪个版本,请使用 InternVL3-1B 版本。
我们推出了 InternVL3,这是一系列先进的多模态大语言模型(MLLM),展示了卓越的整体性能。
与 InternVL 2.5 相比,InternVL3 表现出更优的多模态感知和推理能力,同时进一步扩展了其多模态能力,涵盖工具使用、GUI 代理、工业图像分析、3D 视觉感知等。
此外,我们将 InternVL3 与 Qwen2.5 Chat 模型进行了比较,后者的预训练基础模型被用作 InternVL3 语言组件的初始化。得益于原生多模态预训练,InternVL3 系列在文本性能上甚至优于 Qwen2.5 系列。

InternVL3 系列
在下表中,我们概述了 InternVL3 系列。

模型架构
如下图所示,InternVL3 保留了与 InternVL 2.5 及其前身 InternVL 1.5 和 2.0 相同的模型架构,遵循“ViT-MLP-LLM”范式。在这个新版本中,我们集成了新近增量预训练的 InternViT 与各种预训练的大语言模型(LLM),包括 InternLM 3 和 Qwen 2.5,使用随机初始化的 MLP 投影器。

与之前的版本一样,我们应用了像素解混操作,将视觉标记的数量减少到原始的四分之一。此外,我们采用了与 InternVL 1.5 类似的动态分辨率策略,将图像划分为 448×448 像素的图块。从 InternVL 2.0 开始的关键区别在于,我们还引入了对多图像和视频数据的支持。
值得注意的是,在 InternVL3 中,我们集成了可变视觉位置编码(V2PE),它使用更小、更灵活的位置增量来表示视觉标记。得益于 V2PE,InternVL3 在长上下文理解能力上优于其前身。
训练策略
原生多模态预训练
我们提出了一种原生多模态预训练方法,将语言和视觉学习整合到单一的预训练阶段。
与标准范式(首先训练纯语言模型,然后适应处理其他模态)不同,我们的方法将多模态数据(如图像-文本、视频-文本或图像-文本交错序列)与大规模文本语料库交替训练。这种统一的训练方案使模型能够同时学习语言和多模态表示,最终增强其处理视觉-语言任务的能力,而无需单独的校准或桥接模块。
更多细节请参阅我们的论文。
监督微调
在这一阶段,InternVL2.5 中提出的随机 JPEG 压缩、平方损失重加权和多模态数据打包技术也被应用于 InternVL3 系列。
InternVL3 在 SFT 阶段相比 InternVL2.5 的主要进步在于使用了更高质量和更多样化的训练数据。
具体来说,我们进一步扩展了工具使用、3D 场景理解、GUI 操作、长上下文任务、视频理解、科学图表、创意写作和多模态推理的训练样本。
混合偏好优化
在预训练和 SFT 期间,模型被训练为基于先前真实标记预测下一个标记。
然而,在推理过程中,模型基于其自身的先前输出预测每个标记。
这种真实标记与模型预测标记之间的差异引入了分布偏移,可能会损害模型的思维链(CoT)推理能力。
为了缓解这个问题,我们采用了MPO,它引入了来自正负样本的额外监督,以将模型响应分布与真实分布对齐,从而提高推理性能。
具体来说,MPO 的训练目标是偏好损失 \(\mathcal{L}{\text{p}}\)、质量损失 \(\mathcal{L}{\text{q}}\) 和生成损失 \(\mathcal{L}_{\text{g}}\) 的组合,可以表示为:
$$
\mathcal{L}=w_{p}\cdot\mathcal{L}{\text{p}} + w{q}\cdot\mathcal{L}{\text{q}} + w{g}\cdot\mathcal{L}_{\text{g}},
$$
其中 \(w_{*}\) 表示分配给每个损失分量的权重。有关 MPO 的更多细节,请参阅我们的论文。
测试时缩放
测试时缩放已被证明是增强 LLM 和 MLLM 推理能力的有效方法。
在这项工作中,我们使用 Best-of-N 评估策略,并采用 VisualPRM-8B 作为评判模型,为推理和数学评估选择最佳响应。
多模态能力评估
多模态推理与数学

OCR、图表与文档理解

多图像与现实世界理解

综合多模态与幻觉评估

视觉定位

多模态多语言理解

视频理解

GUI 定位

空间推理

语言能力评估
我们将 InternVL3 与 Qwen2.5 Chat 模型进行比较,