许可证: mit
数据集:
- laion/laion2B-en
- laion/laion-coco
- laion/laion2B-multi
- kakaobrain/coyo-700m
- conceptual_captions
- wanng/wukong100m
管道标签: 图像特征提取
库名称: transformers
新版本: OpenGVLab/InternViT-300M-448px-V2_5
InternViT-300M-448px
[📂 GitHub] [📜 InternVL 1.0] [📜 InternVL 1.5] [📜 Mini-InternVL] [📜 InternVL 2.5]
[🆕 博客] [🗨️ 聊天演示] [🤗 HF演示] [🚀 快速开始] [📖 文档]
本次更新主要聚焦于提升视觉基础模型的效率。我们通过从强大的视觉基础模型InternViT-6B-448px-V1-5中蒸馏知识,开发了InternViT-300M-448px。与其前身一样,InternViT-300M-448px具备448×448的动态输入分辨率,基础图块尺寸为448×448。训练时支持1至12个图块,测试时可扩展至1至40个图块。此外,它还继承了InternViT-6B-448px-V1-5的强大鲁棒性、OCR能力以及高分辨率处理能力。
模型详情
- 模型类型: 视觉基础模型,特征骨干网络
- 模型统计:
- 参数量(百万): 304
- 图像尺寸: 448 x 448,训练时使用1 - 12个图块
- 预训练数据集: LAION-en、LAION-zh、COYO、GRIT、COCO、TextCaps、Objects365、OpenImages、All-Seeing、Wukong-OCR、LaionCOCO-OCR及其他OCR相关数据集。
为增强模型的OCR能力,我们在通用标注数据集之外还加入了额外的OCR数据。具体而言,我们使用PaddleOCR对Wukong中的图像进行中文OCR识别,对LAION-COCO中的图像进行英文OCR识别。
快速开始
[!警告]
🚨 注意:根据我们的经验,InternViT V2.5系列更适合构建多模态大语言模型(MLLMs),而非传统的计算机视觉任务。
import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor
model = AutoModel.from_pretrained(
'OpenGVLab/InternViT-300M-448px',
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=True,
trust_remote_code=True).cuda().eval()
image = Image.open('./examples/image1.jpg').convert('RGB')
image_processor = CLIPImageProcessor.from_pretrained('OpenGVLab/InternViT-300M-448px')
pixel_values = image_processor(images=image, return_tensors='pt').pixel_values
pixel_values = pixel_values.to(torch.bfloat16).cuda()
outputs = model(pixel_values)
许可证
本项目采用MIT许可证发布。
引用
如果您在研究中使用了本项目,请考虑引用以下文献:
@article{chen2024expanding,
title={通过模型、数据与测试时扩展突破开源多模态模型的性能边界},
author={陈哲、王维云、曹越、刘阳洲、高章伟、崔尔飞、朱金国、叶圣龙、田浩、刘朝阳等},
journal={arXiv预印本 arXiv:2412.05271},
year={2024}
}
@article{gao2024mini,
title={Mini-InternVL: 仅5%参数量实现90%性能的灵活迁移口袋多模态模型},
author={高章伟、陈哲、崔尔飞、任一鸣、王维云、朱金国、田浩、叶圣龙、何俊君、朱希舟等},
journal={arXiv预印本 arXiv:2410.16261},
year={2024}
}
@article{chen2024far,
title={我们距离GPT-4V还有多远?用开源套件缩小与商业多模态模型的差距},
author={陈哲、王维云、田浩、叶圣龙、高章伟、崔尔飞、童雯雯、胡孔智、罗家鹏、马铮等},
journal={arXiv预印本 arXiv:2404.16821},
year={2024}
}
@inproceedings{chen2024internvl,
title={InternVL: 扩展视觉基础模型并实现通用视觉-语言任务对齐},
author={陈哲、吴建楠、王温海、苏伟杰、陈果、邢森、钟牧岩、张青龙、朱希舟、卢乐为等},
booktitle={IEEE/CVF计算机视觉与模式识别会议论文集},
pages={24185--24198},
year={2024}
}