license: other
license_name: qwen
license_link: https://huggingface.co/Qwen/Qwen2.5-72B-Instruct/blob/main/LICENSE
pipeline_tag: image-text-to-text
library_name: transformers
base_model:
- OpenGVLab/InternVL3-8B
base_model_relation: quantized
datasets:
- OpenGVLab/MMPR-v1.2
language:
- multilingual
tags:
- internvl
- custom_code
InternVL3-8B
【📂 GitHub】 【📜 InternVL 1.0】 【📜 InternVL 1.5】 【📜 InternVL 2.5】 【📜 InternVL2.5-MPO】 【📜 InternVL3】
【🆕 博客】 【🗨️ 聊天演示】 【🤗 HF演示】 【🚀 快速开始】 【📖 文档】
简介
我们推出InternVL3系列,这是一款展现卓越综合性能的先进多模态大语言模型(MLLM)。相比InternVL 2.5,InternVL3不仅具备更强大的多模态感知与推理能力,还将能力边界拓展至工具调用、GUI智能体、工业图像分析、3D视觉感知等全新领域。特别值得注意的是,InternVL3以Qwen2.5 Chat系列模型对应的预训练基模型作为语言组件初始化,得益于原生多模态预训练技术,其文本综合表现甚至超越了Qwen2.5系列。

InternVL3家族
下表展示了InternVL3系列的全景概览:

模型架构
如图所示,InternVL3延续了InternVL 2.5及其前代1.5和2.0版本的"ViT-MLP-LLM"架构范式。本版本创新性地将增量预训练的InternViT与InternLM 3、Qwen 2.5等多种预训练大语言模型通过随机初始化的MLP投影器进行融合。

延续前代设计,我们采用像素重组操作将视觉token数量压缩至原始四分之一,并沿袭InternVL 1.5的动态分辨率策略,将图像分割为448×448像素的图块。自InternVL 2.0起的关键创新在于新增了对多图像和视频数据的支持。
特别值得注意的是,InternVL3集成了可变视觉位置编码(V2PE)技术,通过更精细灵活的位置增量处理视觉token。得益于V2PE,InternVL3展现出优于前代的长上下文理解能力。
训练策略
原生多模态预训练
我们提出原生多模态预训练方法,将语言与视觉学习统一于单一预训练阶段。不同于传统范式先训练纯语言模型再适配多模态的做法,该方法将多模态数据(如图文对、视频文本或图文交错序列)与大规模文本语料交织训练。这种一体化训练方案使模型能同步学习语言与多模态表征,最终无需额外对齐模块即可增强视觉语言任务处理能力。详见论文。
监督微调
本阶段采用了InternVL2.5提出的随机JPEG压缩、平方损失重加权和多模态数据打包技术。相比InternVL2.5,InternVL3监督微调阶段的主要突破在于使用了更优质、更多样的训练数据,特别扩展了工具使用、3D场景理解、GUI操作、长上下文任务、视频理解、科学图表、创意写作和多模态推理等领域的训练样本。
混合偏好优化
预训练和监督微调阶段模型基于真实历史token预测下一token,而推理时则依赖模型自身输出,这种分布差异会损害思维链推理能力。为此我们采用MPO技术,通过正负样本的额外监督使模型响应分布对齐真实分布,其训练目标为偏好损失\(\mathcal{L}{\text{p}}\)、质量损失\(\mathcal{L}{\text{q}}\)和生成损失\(\mathcal{L}_{\text{g}}\)的加权组合:
$$
\mathcal{L}=w_{p}\cdot\mathcal{L}{\text{p}} + w{q}\cdot\mathcal{L}{\text{q}} + w{g}\cdot\mathcal{L}_{\text{g}},
$$
其中\(w_{*}\)为各损失权重。详见MPO论文。
测试时扩展
测试时扩展被证明是增强大模型推理能力的有效方法。本研究采用Best-of-N评估策略,使用VisualPRM-8B作为评判模型来选择数学与推理任务的最佳响应。
多模态能力评估
多模态推理与数学

OCR、图表与文档理解

多图像与真实场景理解

综合多模态与幻觉评估

视觉定位

多语言多模态理解

视频理解

GUI定位

空间推理

语言能力评估
InternVL3以Qwen2.5 Chat对应基模型初始化语言组件,得益于原生多模态预训练,其文本综合表现超越Qwen2.5系列。需注意Qwen2.5系列的评估分数可能与其官方报告存在差异,因我们采用OpenCompass统一评估标准。

消融实验
原生多模态预训练
在保持InternVL2-8B架构、初始化参数和训练数据不变的情况下,将传统MLP预热阶段替换为原生多模态预训练。如图所示,该方法在多数基准上达到与多阶段训练相当的性能,结合高质量指令微调后更实现全面提升,证实了该方法的有效性。

混合偏好优化
如表所示,经MPO微调的模型在七大推理基准上全面超越基线,其中InternVL3-78B和38B分别提升4.1和4.5分。值得注意的是,MPO训练数据仅为SFT的子集,说明性能提升主要源于算法创新。
![image/png](https://huggingface.co/datasets/Weiyun1025/InternVL-Performance/resolve/main/internvl3/