InternViT-300M开源视觉模型 - 支持多种视觉任务，免费上手使用

首页

Vit Intern300m Patch14 448.ogvl Dist

由 timm 开发

InternViT-300M是一个由OpenGVLab团队开发的视觉Transformer模型，通过从InternViT-6B蒸馏预训练而来，支持多种视觉任务。

图像分类

Transformers

开源协议:MIT #多模态视觉特征 #高分辨率448px #OCR增强

下载量 147

发布时间 : 10/16/2024

模型简介

该模型是一个基于ViT架构的图像特征提取模型，主要用于图像分类和特征提取任务，支持448x448分辨率的图像输入。

模型特点

高分辨率支持

支持448x448的高分辨率图像输入，适合需要精细视觉特征的任务。

多数据集预训练

在LAION-en/zh、COYO、GRIT等多个大型数据集上预训练，具有强大的泛化能力。

蒸馏模型

从更大的InternViT-6B模型蒸馏而来，在保持性能的同时减小了模型规模。

模型能力

图像分类

视觉特征提取

图像嵌入生成

使用案例

计算机视觉

图像分类

对输入图像进行分类，识别图像中的主要对象或场景。

在多个基准数据集上表现优异

视觉特征提取

提取图像的深度视觉特征，可用于下游任务如目标检测、图像检索等。

🚀 vit_intern300m_patch14_448.ogvl_dist模型卡片

这是一个InternViT图像特征模型。由论文作者使用多种图像 - 文本数据，从InternViT - 6B进行蒸馏预训练得到。模型权重已从OpenGVLab/InternViT - 300M - 448px的原始格式转换为timm的vit格式。注意：此vit在特征/头部之前没有最终归一化层。

🚀 快速开始

本模型可用于图像分类、特征图提取和图像嵌入等任务，具体使用方法见下方“💻 使用示例”部分。

✨ 主要特性

基于InternViT架构，能有效提取图像特征。
使用多种图像 - 文本数据进行蒸馏预训练，具有良好的泛化能力。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

图像分类

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('vit_intern300m_patch14_448.ogvl_dist', pretrained=True)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # unsqueeze single image into batch of 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

高级用法

特征图提取

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
    'vit_intern300m_patch14_448.ogvl_dist',
    pretrained=True,
    features_only=True,
)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # unsqueeze single image into batch of 1

for o in output:
    # print shape of each feature map in output
    # e.g.:
    #  torch.Size([1, 1024, 32, 32])
    #  torch.Size([1, 1024, 32, 32])
    #  torch.Size([1, 1024, 32, 32])

    print(o.shape)

图像嵌入

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
    'vit_intern300m_patch14_448.ogvl_dist',
    pretrained=True,
    num_classes=0,  # remove classifier nn.Linear
)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # output is (batch_size, num_features) shaped tensor

# or equivalently (without needing to set num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# output is unpooled, a (1, 1025, 1024) shaped tensor

output = model.forward_head(output, pre_logits=True)
# output is a (1, num_features) shaped tensor

📚 详细文档

模型详情

属性	详情
模型类型	图像分类 / 特征主干网络
模型统计信息	参数（M）：304.0 GMACs：362.0 激活值（M）：656.4 图像尺寸：448 x 448
相关论文	InternVL2: Better than the Best: https://internvl.github.io/blog/2024-07-02-InternVL-2.0/ InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks: https://arxiv.org/abs/2312.14238
原始代码库	https://github.com/OpenGVLab/InternVL
训练数据集	LAION - en LAION - zh COYO GRIT COCO TextCaps Objects365 OpenImages All - Seeing Wukong - OCR LaionCOCO - OCR other - OCR

引用信息

@article{chen2023internvl,
  title={InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks},
  author={Chen, Zhe and Wu, Jiannan and Wang, Wenhai and Su, Weijie and Chen, Guo and Xing, Sen and Zhong, Muyan and Zhang, Qinglong and Zhu, Xizhou and Lu, Lewei and Li, Bin and Luo, Ping and Lu, Tong and Qiao, Yu and Dai, Jifeng},
  journal={arXiv preprint arXiv:2312.14238},
  year={2023}
}