I

Internvit 300M 448px V2 5

由 OpenGVLab 开发
InternViT-300M-448px-V2_5是基于InternViT-300M-448px的重大升级版本,通过ViT增量学习和NTP损失提升了视觉特征提取能力,特别擅长处理多语言OCR数据和数学图表等复杂场景。
下载量 23.29k
发布时间 : 11/22/2024
模型介绍
内容详情
替代品

模型简介

该模型是一个视觉特征提取模型,主要用于图像特征提取任务,能够捕捉更全面的视觉信息,特别在大规模网络数据集中代表性不足的领域表现优异。

模型特点

ViT增量学习
通过增量学习和NTP损失提升视觉编码器的特征提取能力,特别是在多语言OCR和数学图表等复杂领域。
动态高分辨率训练
支持处理多图像和视频数据,通过动态分配图块实现高效的高分辨率训练。
多模态支持
整合了经过增量预训练的InternViT与多种预训练LLM,支持多模态任务。

模型能力

图像特征提取
多语言OCR处理
数学图表分析
多模态任务支持

使用案例

视觉特征提取
多语言OCR
处理多语言文本图像,提取高质量的视觉特征。
在代表性不足的领域表现优异。
数学图表分析
提取数学图表中的视觉特征,支持复杂的数学符号和结构识别。
能够捕捉更全面的信息。
多模态任务
图像-文本对齐
将视觉特征与文本信息对齐,支持多模态理解和生成任务。
提升跨模态对齐的稳健性。