I

Internvl3 2B Instruct

由 OpenGVLab 开发
InternVL3-2B-Instruct是基于InternVL3-2B的监督微调版本,经过原生多模态预训练和SFT处理,具备强大的多模态感知和推理能力。
下载量 1,345
发布时间 : 4/16/2025
模型介绍
内容详情
替代品

模型简介

InternVL3-2B-Instruct是一个先进的多模态大语言模型,展示了卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种任务。

模型特点

原生多模态预训练
将语言和视觉学习整合到一个预训练阶段,增强多模态处理能力。
可变视觉位置编码(V2PE)
使用更小、更灵活的位置增量,提升长上下文理解能力。
动态分辨率策略
将图像划分为448×448像素的块,支持多图像和视频数据。
监督微调
使用高质量和多样化的训练数据,扩展了工具使用、3D场景理解等多种任务。

模型能力

多模态推理
OCR识别
图表理解
文档理解
多图像理解
视频理解
GUI定位
空间推理
多语言理解

使用案例

工业图像分析
缺陷检测
识别工业图像中的缺陷和异常。
提高检测准确率和效率。
3D视觉感知
3D场景理解
分析和理解3D场景中的物体和关系。
增强3D场景的语义理解能力。
GUI操作
自动化测试
自动识别和操作GUI元素。
提高GUI测试的自动化水平。