V

Vit Intern300m Patch14 448.ogvl Dist

由 timm 开发
InternViT-300M是一个由OpenGVLab团队开发的视觉Transformer模型,通过从InternViT-6B蒸馏预训练而来,支持多种视觉任务。
下载量 147
发布时间 : 10/16/2024
模型介绍
内容详情
替代品

模型简介

该模型是一个基于ViT架构的图像特征提取模型,主要用于图像分类和特征提取任务,支持448x448分辨率的图像输入。

模型特点

高分辨率支持
支持448x448的高分辨率图像输入,适合需要精细视觉特征的任务。
多数据集预训练
在LAION-en/zh、COYO、GRIT等多个大型数据集上预训练,具有强大的泛化能力。
蒸馏模型
从更大的InternViT-6B模型蒸馏而来,在保持性能的同时减小了模型规模。

模型能力

图像分类
视觉特征提取
图像嵌入生成

使用案例

计算机视觉
图像分类
对输入图像进行分类,识别图像中的主要对象或场景。
在多个基准数据集上表现优异
视觉特征提取
提取图像的深度视觉特征,可用于下游任务如目标检测、图像检索等。