许可协议: mit
数据集:
- laion/laion2B-en
- laion/laion-coco
- laion/laion2B-multi
- kakaobrain/coyo-700m
- conceptual_captions
- wanng/wukong100m
任务标签: 图像特征提取
基础模型: OpenGVLab/InternViT-6B-448px-V1-2
基础模型关系: 微调
新版本: OpenGVLab/InternViT-6B-448px-V2_5
InternViT-6B-448px-V1-5
[📂 GitHub] [📜 InternVL 1.0] [📜 InternVL 1.5] [📜 Mini-InternVL] [📜 InternVL 2.5]
[🆕 博客] [🗨️ 聊天演示] [🤗 HF演示] [🚀 快速开始] [📖 文档]
我们在InternViT-6B-448px-V1-2的强大预训练基础上开发了InternViT-6B-448px-V1-5。本次更新将训练图像分辨率从448×448扩展到动态448×448,其中基础图块大小为448×448,图块数量范围为1至12。此外,我们还提升了预训练数据集的数据规模、质量和多样性,使1.5版本模型具备强大的鲁棒性、OCR能力以及高分辨率处理能力。
模型详情
- 模型类型: 视觉基础模型,特征骨干网络
- 模型统计:
- 参数量(百万): 5540(最后3个块被丢弃)
- 图像尺寸: 448 x 448,训练时使用1-12个图块
- 预训练数据集: LAION-en、LAION-zh、COYO、GRIT、COCO、TextCaps、Objects365、OpenImages、All-Seeing、Wukong-OCR、LaionCOCO-OCR及其他OCR相关数据集。
为增强模型的OCR能力,我们在通用标题数据集之外额外引入了OCR数据。具体而言,我们使用PaddleOCR对Wukong中的图像进行中文OCR识别,并对LAION-COCO中的图像进行英文OCR识别。
- 注意: InternViT-6B原本包含48个块,我们发现使用倒数第四块的输出对于MLLM效果最佳。为便于使用并节省GPU内存,我们直接丢弃了最后3个块。现在模型仅包含45个块,参数量从59亿降至55亿。因此,若基于此模型构建MLLM,请务必使用最后一层的特征。
快速开始
[!警告]
🚨 注意:根据我们的经验,InternViT V2.5系列更适合构建MLLM,而非传统计算机视觉任务。
import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor
model = AutoModel.from_pretrained(
'OpenGVLab/InternViT-6B-448px-V1-5',
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=True,
trust_remote_code=True).cuda().eval()
image = Image.open('./examples/image1.jpg').convert('RGB')
image_processor = CLIPImageProcessor.from_pretrained('OpenGVLab/InternViT-6B-448px-V1-5')
pixel_values = image_processor(images=image, return_tensors='pt').pixel_values
pixel_values = pixel_values.to(torch.bfloat16).cuda()
outputs = model(pixel_values)
许可
本项目采用MIT许可证发布。
引用
如果您在研究中使用了本项目,请考虑引用:
@article{chen2024expanding,
title={通过模型、数据与测试时扩展突破开源多模态模型的性能边界},
author={陈哲、王伟云、曹越、刘阳洲、高章伟、崔尔飞、朱金国、叶圣龙、田浩、刘朝阳等},
journal={arXiv预印本 arXiv:2412.05271},
year={2024}
}
@article{gao2024mini,
title={Mini-InternVL: 参数仅5%却实现90%性能的灵活迁移口袋多模态模型},
author={高章伟、陈哲、崔尔飞、任一鸣、王伟云、朱金国、田浩、叶圣龙、何俊军、朱希舟等},
journal={arXiv预印本 arXiv:2410.16261},
year={2024}
}
@article{chen2024far,
title={我们离GPT-4V还有多远?用开源套件缩小与商业多模态模型的差距},
author={陈哲、王伟云、田浩、叶圣龙、高章伟、崔尔飞、童雯雯、胡孔智、罗家鹏、马铮等},
journal={arXiv预印本 arXiv:2404.16821},
year={2024}
}
@inproceedings{chen2024internvl,
title={InternVL: 扩展视觉基础模型并适配通用视觉-语言任务},
author={陈哲、吴建南、王文海、苏伟杰、陈果、邢森、钟慕然、张青龙、朱希舟、卢乐为等},
booktitle={IEEE/CVF计算机视觉与模式识别会议论文集},
pages={24185--24198},
year={2024}
}