I

Internvit 300M 448px

由 OpenGVLab 开发
InternViT-300M-448px是一个高效的视觉基础模型,通过从InternViT-6B-448px-V1-5蒸馏知识开发而来,具备448×448的动态输入分辨率,支持1至40个图块处理。
下载量 7,506
发布时间 : 5/24/2024
模型介绍
内容详情
替代品

模型简介

InternViT-300M-448px是一个视觉基础模型,主要用于图像特征提取。它继承了InternViT-6B-448px-V1-5的强大鲁棒性、OCR能力以及高分辨率处理能力。

模型特点

高分辨率处理能力
支持448×448的动态输入分辨率,训练时支持1至12个图块,测试时可扩展至1至40个图块。
强大的OCR能力
通过额外的OCR数据增强,模型在处理中文和英文OCR任务时表现出色。
高效模型
通过知识蒸馏从更大的模型中获得高效性能,参数量仅为304百万。

模型能力

图像特征提取
高分辨率图像处理
OCR识别
多模态任务支持

使用案例

多模态大语言模型
构建MLLMs
InternViT V2.5系列适合用于构建多模态大语言模型(MLLMs)。
OCR任务
中文OCR识别
使用PaddleOCR对Wukong中的图像进行中文OCR识别。
英文OCR识别
对LAION-COCO中的图像进行英文OCR识别。