I

Internvl3 2B Pretrained

由 OpenGVLab 开发
InternVL3-2B是OpenGVLab推出的先进多模态大语言模型,具备强大的视觉语言理解和推理能力,支持多种多模态任务。
下载量 61
发布时间 : 4/17/2025
模型介绍
内容详情
替代品

模型简介

InternVL3-2B是一款基于Qwen2.5-1.5B和InternViT-300M-448px-V2_5合并的多模态大语言模型,已完成原生多模态预训练,展现出卓越的整体性能。

模型特点

原生多模态预训练
将语言和视觉学习整合到单一预训练阶段,增强多模态表示能力
可变视觉位置编码(V2PE)
使用更小、更灵活的位置增量,提升长上下文理解能力
混合偏好优化(MPO)
通过正负样本监督对齐模型响应分布,提高推理性能
动态分辨率处理
支持448×448像素的图块划分,适应不同尺寸输入

模型能力

多模态推理
图像描述生成
文档理解
多图像分析
视频理解
GUI定位
空间推理
多语言理解

使用案例

视觉内容分析
图像描述生成
为输入的图像生成详细描述
高质量的自然语言描述
多图像对比
分析多张图像的相似与不同之处
准确的对比分析结果
工业应用
工业图像分析
分析工业场景中的图像数据
准确的缺陷检测和分类
交互式应用
GUI代理
理解并操作图形用户界面
准确的界面元素识别和操作