InternViT-300M-448px-V2_5开源视觉模型 - 免费部署处理多语言OCR与数学图表

首页

Internvit 300M 448px V2 5

由 OpenGVLab 开发

InternViT-300M-448px-V2_5是基于InternViT-300M-448px的重大升级版本，通过ViT增量学习和NTP损失提升了视觉特征提取能力，特别擅长处理多语言OCR数据和数学图表等复杂场景。

文本生成图像

Safetensors

开源协议:MIT #多模态特征提取 #动态高分辨率处理 #增量预训练优化

下载量 23.29k

发布时间 : 11/22/2024

模型简介

该模型是一个视觉特征提取模型，主要用于图像特征提取任务，能够捕捉更全面的视觉信息，特别在大规模网络数据集中代表性不足的领域表现优异。

模型特点

ViT增量学习

通过增量学习和NTP损失提升视觉编码器的特征提取能力，特别是在多语言OCR和数学图表等复杂领域。

动态高分辨率训练

支持处理多图像和视频数据，通过动态分配图块实现高效的高分辨率训练。

多模态支持

整合了经过增量预训练的InternViT与多种预训练LLM，支持多模态任务。

模型能力

图像特征提取

多语言OCR处理

数学图表分析

多模态任务支持

使用案例

视觉特征提取

多语言OCR

处理多语言文本图像，提取高质量的视觉特征。

在代表性不足的领域表现优异。

数学图表分析

提取数学图表中的视觉特征，支持复杂的数学符号和结构识别。

能够捕捉更全面的信息。

多模态任务

图像-文本对齐

将视觉特征与文本信息对齐，支持多模态理解和生成任务。

提升跨模态对齐的稳健性。

🚀 InternViT-300M-448px-V2_5

InternViT-300M-448px-V2_5 是基于 InternViT-300M-448px 构建的增强版本，采用ViT增量学习与NTP损失，提升了视觉编码器提取特征的能力，尤其在多语言OCR数据和数学图表等领域表现出色。

📂 GitHub 📜 InternVL 1.0 📜 InternVL 1.5 📜 Mini-InternVL 📜 InternVL 2.5

🆕 Blog 🗨️ Chat Demo 🤗 HF Demo 🚀 Quick Start 📖 Documents

✨ 主要特性

我们很高兴地宣布 InternViT-300M-448px-V2_5 的发布，它是在 InternViT-300M-448px 的基础上进行的重大改进。通过采用具有NTP损失的 ViT增量学习（阶段1.5），视觉编码器提取视觉特征的能力得到了提升，使其能够捕捉更全面的信息。这种改进在大规模网络数据集（如LAION - 5B）中代表性不足的领域尤为明显，包括多语言OCR数据和数学图表等。

image/png

📚 详细文档

InternViT 2.5 系列

下表概述了InternViT 2.5系列的模型：

模型名称	HF链接
InternViT-300M-448px-V2_5	🤗 link
InternViT-6B-448px-V2_5	🤗 link

模型架构

如下图所示，InternVL 2.5保留了与前代版本InternVL 1.5和2.0相同的模型架构，遵循 “ViT - MLP - LLM” 范式。在这个新版本中，我们使用随机初始化的MLP投影器，将新的增量预训练的InternViT与各种预训练的LLM（包括InternLM 2.5和Qwen 2.5）集成在一起。

image/png

与之前的版本一样，我们应用了像素重排操作，将视觉标记的数量减少到原来的四分之一。此外，我们采用了与InternVL 1.5类似的动态分辨率策略，将图像分割成448×448像素的图块。从InternVL 2.0开始，关键的区别在于我们还增加了对多图像和视频数据的支持。

训练策略

多模态数据的动态高分辨率

在InternVL 2.0和2.5中，我们扩展了动态高分辨率训练方法，增强了其处理多图像和视频数据集的能力。

image/png

对于单图像数据集，将总图块数 n_max 分配给单个图像以实现最大分辨率。视觉标记用 <img> 和 </img> 标签括起来。
对于多图像数据集，将总图块数 n_max 分配到样本中的所有图像上。每个图像用 Image - 1 等辅助标签标记，并使用 <img> 和 </img> 标签括起来。
对于视频，每个帧被调整为448×448。帧用 Frame - 1 等标签标记，并使用 <img> 和 </img> 标签括起来，与图像类似。

单模型训练流程

InternVL 2.5中单个模型的训练流程分为三个阶段，旨在增强模型的视觉感知和多模态能力。

image/png

阶段1：MLP预热：在这个阶段，仅训练MLP投影器，而视觉编码器和语言模型保持冻结。应用动态高分辨率训练策略以获得更好的性能，尽管成本有所增加。此阶段确保了强大的跨模态对齐，并为模型的稳定多模态训练做好准备。
阶段1.5：ViT增量学习（可选）：此阶段允许使用与阶段1相同的数据对视觉编码器和MLP投影器进行增量训练。它增强了编码器处理多语言OCR和数学图表等罕见领域的能力。一旦训练完成，编码器可以在不同的LLM之间重复使用，而无需重新训练，因此除非引入新的领域，否则此阶段是可选的。
阶段2：全模型指令调优：在高质量的多模态指令数据集上训练整个模型。实施严格的数据质量控制，以防止LLM性能下降，因为嘈杂的数据可能会导致输出重复或错误等问题。此阶段完成后，训练过程结束。

视觉能力评估

我们对视觉编码器在各个领域和任务中的性能进行了全面评估。评估分为两个关键类别：（1）图像分类，代表全局视图语义质量；（2）语义分割，捕捉局部视图语义质量。这种方法使我们能够评估InternViT在其连续版本更新中的表示质量。更多详细信息请参考我们的技术报告。

图像分类

image/png

不同版本InternViT的图像分类性能：我们使用IN - 1K进行训练，并在IN - 1K验证集以及多个ImageNet变体（包括IN - ReaL、IN - V2、IN - A、IN - R和IN - Sketch）上进行评估。报告了线性探测和注意力池化探测方法的结果，并给出了每种方法的平均准确率。∆ 表示注意力池化探测和线性探测之间的性能差距，∆ 值越大表明从学习简单的线性特征向捕捉更复杂的非线性语义表示转变。

语义分割性能

image/png

不同版本InternViT的语义分割性能：在ADE20K和COCO - Stuff - 164K上使用三种配置（线性探测、头部调优和全调优）对模型进行评估。表格显示了每种配置的mIoU分数及其平均值。∆1 表示头部调优和线性探测之间的差距，而∆2 表示全调优和线性探测之间的差距。∆ 值越大表明从简单的线性特征向更复杂的非线性表示转变。

💻 使用示例

基础用法

import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor

model = AutoModel.from_pretrained(
    'OpenGVLab/InternViT-300M-448px-V2_5',
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    trust_remote_code=True).cuda().eval()

image = Image.open('./examples/image1.jpg').convert('RGB')

image_processor = CLIPImageProcessor.from_pretrained('OpenGVLab/InternViT-300M-448px-V2_5')

pixel_values = image_processor(images=image, return_tensors='pt').pixel_values
pixel_values = pixel_values.to(torch.bfloat16).cuda()

outputs = model(pixel_values)

⚠️ 重要提示

根据我们的经验，InternViT V2.5系列更适合构建MLLM，而非传统的计算机视觉任务。

📄 许可证

本项目采用MIT许可证发布。

📚 引用

如果您在研究中发现本项目有用，请考虑引用：

@article{chen2024expanding,
  title={Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling},
  author={Chen, Zhe and Wang, Weiyun and Cao, Yue and Liu, Yangzhou and Gao, Zhangwei and Cui, Erfei and Zhu, Jinguo and Ye, Shenglong and Tian, Hao and Liu, Zhaoyang and others},
  journal={arXiv preprint arXiv:2412.05271},
  year={2024}
}
@article{gao2024mini,
  title={Mini-internvl: A flexible-transfer pocket multimodal model with 5\% parameters and 90\% performance},
  author={Gao, Zhangwei and Chen, Zhe and Cui, Erfei and Ren, Yiming and Wang, Weiyun and Zhu, Jinguo and Tian, Hao and Ye, Shenglong and He, Junjun and Zhu, Xizhou and others},
  journal={arXiv preprint arXiv:2410.16261},
  year={2024}
}
@article{chen2024far,
  title={How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites},
  author={Chen, Zhe and Wang, Weiyun and Tian, Hao and Ye, Shenglong and Gao, Zhangwei and Cui, Erfei and Tong, Wenwen and Hu, Kongzhi and Luo, Jiapeng and Ma, Zheng and others},
  journal={arXiv preprint arXiv:2404.16821},
  year={2024}
}
@inproceedings{chen2024internvl,
  title={Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks},
  author={Chen, Zhe and Wu, Jiannan and Wang, Wenhai and Su, Weijie and Chen, Guo and Xing, Sen and Zhong, Muyan and Zhang, Qinglong and Zhu, Xizhou and Lu, Lewei and others},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  pages={24185--24198},
  year={2024}
}