I

Internvl3 2B AWQ

由 OpenGVLab 开发
InternVL3-2B是OpenGVLab推出的先进多模态大语言模型(MLLM),具备卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等。
下载量 677
发布时间 : 4/17/2025
模型介绍
内容详情
替代品

模型简介

InternVL3-2B是一个多模态大语言模型,结合了视觉和语言处理能力,适用于多种多模态任务。

模型特点

原生多模态预训练
将语言和视觉学习整合到一个预训练阶段,增强多模态处理能力。
可变视觉位置编码(V2PE)
使用更小、更灵活的位置增量编码视觉标记,提升长上下文理解能力。
混合偏好优化(MPO)
通过正负样本监督,提高模型的推理性能。
测试时缩放
采用Best-of-N评估策略和VisualPRM-8B作为批评模型,优化推理和数学评估。

模型能力

多模态推理
OCR
图表理解
文档理解
多图像理解
视频理解
GUI定位
空间推理

使用案例

工业图像分析
工业缺陷检测
通过图像分析检测工业产品中的缺陷。
高精度识别缺陷
3D视觉感知
3D场景理解
理解和分析3D场景中的物体和关系。
提升3D场景理解能力
GUI操作
自动化GUI测试
通过模型理解GUI界面并执行自动化测试。
提高测试效率