I

Internvl3 1B Instruct

由 OpenGVLab 开发
InternVL3-1B-Instruct 是 InternVL3 系列的监督微调版本,基于原生多模态预训练,具备卓越的多模态感知和推理能力。
下载量 705
发布时间 : 4/16/2025
模型介绍
内容详情
替代品

模型简介

InternVL3-1B-Instruct 是一个先进的多模态大语言模型,支持图像、文本、视频等多种模态的联合理解与推理,适用于复杂的多模态任务。

模型特点

原生多模态预训练
将语言和视觉学习整合到单一的预训练阶段,增强多模态表示能力。
可变视觉位置编码(V2PE)
使用更小、更灵活的位置增量表示视觉标记,提升长上下文理解能力。
动态分辨率策略
将图像划分为 448×448 像素的图块,支持多图像和视频数据。
混合偏好优化(MPO)
通过正负样本的额外监督,提高模型的推理性能。

模型能力

多模态推理
图像理解
文本生成
视频理解
OCR
图表理解
文档理解
GUI 定位
空间推理

使用案例

多模态推理
复杂问题解答
结合图像和文本信息进行复杂问题的推理和解答。
在多项基准测试中表现优异。
文档理解
文档内容提取
从扫描文档或图像中提取文本和结构化信息。
支持高质量的 OCR 和文档分析。
GUI 操作
界面自动化
理解并操作图形用户界面(GUI)。
可用于自动化测试和辅助工具开发。