I

Internvl3 1B AWQ

由 OpenGVLab 开发
InternVL3-1B是InternVL3系列中的多模态大语言模型,具有卓越的多模态感知和推理能力。
下载量 303
发布时间 : 4/17/2025
模型介绍
内容详情
替代品

模型简介

InternVL3-1B是一个先进的多模态大语言模型(MLLM),展示了卓越的整体性能,具有更优的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等。

模型特点

原生多模态预训练
将语言和视觉学习整合到一个预训练阶段,增强多模态任务处理能力。
可变视觉位置编码(V2PE)
使用更小、更灵活的位置增量编码视觉令牌,提升长上下文理解能力。
混合偏好优化(MPO)
通过正负样本的额外监督,提高模型的推理性能。

模型能力

多模态推理
OCR
图表理解
文档理解
多图像理解
视频理解
GUI定位
空间推理

使用案例

工业图像分析
工业缺陷检测
通过图像分析检测工业产品中的缺陷。
高精度识别缺陷
3D视觉感知
3D场景理解
理解并分析3D场景中的物体和关系。
提升3D场景理解能力