I

Internvit 6B 448px V1 5

由 OpenGVLab 开发
InternViT-6B-448px-V1-5是基于InternViT-6B-448px-V1-2微调的视觉基础模型,具备强大的鲁棒性、OCR能力及高分辨率处理能力。
下载量 155
发布时间 : 4/17/2024
模型介绍
内容详情
替代品

模型简介

该模型是一个视觉基础模型,主要用于图像特征提取。它在InternViT-6B-448px-V1-2的基础上进行了微调,提升了预训练数据集的质量和多样性,并扩展了训练图像分辨率。

模型特点

动态分辨率处理
支持448×448基础图块大小,图块数量范围为1至12,具备高分辨率处理能力。
增强OCR能力
通过引入OCR相关数据集,显著提升了模型的文本识别能力。
优化的模型结构
丢弃最后3个块,参数量从59亿降至55亿,节省GPU内存同时保持性能。
多样化预训练数据
使用LAION、COYO、GRIT等多种数据集,增强模型的鲁棒性和泛化能力。

模型能力

图像特征提取
高分辨率图像处理
文本识别(OCR)
多模态任务支持

使用案例

计算机视觉
图像特征提取
提取图像的高层特征表示,用于下游任务如分类、检测等。
文档OCR
识别图像中的文本内容,适用于文档数字化处理。
多模态学习
视觉-语言模型构建
作为视觉骨干网络,用于构建多模态大语言模型(MLLM)。
建议使用V2.5系列构建MLLM