license: mit
pipeline_tag: image-text-to-text
library_name: transformers
base_model:
- OpenGVLab/InternVL3-9B
base_model_relation: quantized
datasets:
- OpenGVLab/MMPR-v1.2
language:
- multilingual
tags:
- internvl
- custom_code
InternVL3-9B
[📂 GitHub] [📜 InternVL 1.0] [📜 InternVL 1.5] [📜 InternVL 2.5] [📜 InternVL2.5-MPO] [📜 InternVL3]
[🆕 Blog] [🗨️ 聊天演示] [🤗 HF演示] [🚀 快速开始] [📖 文档]
简介
我们推出InternVL3,这是一个先进的多模态大语言模型(MLLM)系列,展现出卓越的整体性能。与InternVL 2.5相比,InternVL3具备更优的多模态感知与推理能力,同时进一步扩展其多模态能力至工具使用、GUI代理、工业图像分析、3D视觉感知等领域。此外,我们将InternVL3与Qwen2.5 Chat模型进行对比,后者对应的预训练基础模型被用作InternVL3语言组件的初始化。得益于原生多模态预训练,InternVL3系列在文本性能上甚至超越了Qwen2.5系列。

InternVL3家族
在下表中,我们概述了InternVL3系列。

模型架构
如下图所示,InternVL3保留了与InternVL 2.5及其前身InternVL 1.5和2.0相同的模型架构,遵循"ViT-MLP-LLM"范式。在此新版本中,我们整合了新增预训练的InternViT与多种预训练LLM,包括InternLM 3和Qwen 2.5,使用随机初始化的MLP投影器。

与前一版本相同,我们应用了像素解混操作,将视觉标记数量减少至原始的四分之一。此外,我们采用了类似InternVL 1.5的动态分辨率策略,将图像划分为448×448像素的图块。从InternVL 2.0开始的关键区别在于,我们还引入了对多图像和视频数据的支持。
值得注意的是,在InternVL3中,我们整合了可变视觉位置编码(V2PE),该编码对视觉标记使用更小、更灵活的位置增量。得益于V2PE,InternVL3展现出比其前身更好的长上下文理解能力。
训练策略
原生多模态预训练
我们提出了一种原生多模态预训练方法,将语言和视觉学习整合到单一预训练阶段。与标准范式(首先训练纯语言模型,随后适应处理额外模态)不同,我们的方法将多模态数据(如图文、视频文本或图文交错序列)与大规模文本语料交错。这种统一训练方案使模型能同时学习语言和多模态表示,最终增强其处理视觉语言任务的能力,而无需单独的校准或桥接模块。详情请参阅我们的论文。
监督微调
在此阶段,InternVL2.5中提出的随机JPEG压缩、平方损失重加权和多模态数据打包技术也被应用于InternVL3系列。InternVL3的SFT阶段相较于InternVL2.5的主要进步在于使用了更高质量和多样化的训练数据。具体而言,我们进一步扩展了工具使用、3D场景理解、GUI操作、长上下文任务、视频理解、科学图表、创意写作和多模态推理的训练样本。
混合偏好优化
在预训练和SFT期间,模型被训练为基于先前真实标记预测下一个标记。然而,在推理过程中,模型基于其自身先前的输出来预测每个标记。这种真实标记与模型预测标记之间的差异引入了分布偏移,可能损害模型的思维链(CoT)推理能力。为缓解此问题,我们采用MPO,引入来自正负样本的额外监督,以对齐模型响应分布与真实分布,从而提升推理性能。具体而言,MPO的训练目标是偏好损失\(\mathcal{L}{\text{p}}\)、质量损失\(\mathcal{L}{\text{q}}\)和生成损失\(\mathcal{L}_{\text{g}}\)的组合,可表述如下:
$$
\mathcal{L}=w_{p}\cdot\mathcal{L}{\text{p}} + w{q}\cdot\mathcal{L}{\text{q}} + w{g}\cdot\mathcal{L}_{\text{g}},
$$
其中\(w_{*}\)代表分配给每个损失组件的权重。关于MPO的更多详情,请参阅我们的论文。
测试时缩放
测试时缩放已被证明是增强LLM和MLLM推理能力的有效方法。在本工作中,我们使用Best-of-N评估策略,并采用VisualPRM-8B作为评判模型,为推理和数学评估选择最佳响应。
多模态能力评估
多模态推理与数学

OCR、图表与文档理解

多图像与现实世界理解

综合多模态与幻觉评估

视觉定位

多模态多语言理解

视频理解

GUI定位

空间推理

语言能力评估
我们将InternVL3与Qwen2.5 Chat模型进行对比,后者对应的预训练基础模型被用作InternVL3语言组件的初始化。得益于原生多模态预训练,InternVL3系列在文本性能上甚至超越了Qwen2.5系列。请注意,Qwen2.5系列的评估分数可能与官方报告有所不同,因为我们采用了表格中提供的所有数据集的提示版本进行OpenCompass评估。

消融研究
原生多模态预训练
我们在InternVL2-8B模型上进行实验,保持其架构、初始化参数和训练数据完全不变。传统上,InternVL2-8B采用从MLP预热阶段开始的特征对齐训练流程,随后是指令调优阶段。在我们的实验中,我们将传统的MLP预热阶段替换为原生多模态预训练过程。这一修改隔离了原生多模态预训练对模型整体多模态能力的贡献。
下图中的评估结果显示,采用原生多模态预训练的