I

Internvit 6B 448px V1 2

由 OpenGVLab 开发
InternViT-6B-448px-V1-2是一个视觉基础模型,特征骨干,具有5540万参数,支持448x448像素的图像处理。
下载量 19
发布时间 : 2/11/2024
模型介绍
内容详情
替代品

模型简介

该模型是一个视觉基础模型,主要用于图像特征提取,支持高分辨率处理和OCR能力。

模型特点

高分辨率处理
支持448x448像素的高分辨率图像处理。
OCR能力
通过额外训练增强了OCR能力,适用于文本识别任务。
参数优化
通过丢弃最后3个块,参数从5.9B减少到5.5B,节省GPU内存。

模型能力

图像特征提取
高分辨率图像处理
OCR文本识别

使用案例

计算机视觉
图像特征提取
用于提取图像的高维特征,支持后续的视觉任务。
OCR
文本识别
识别图像中的文本内容,适用于文档数字化等场景。