I

Internvl3 9B AWQ

由 OpenGVLab 开发
InternVL3-9B是InternVL3系列中的一款多模态大语言模型,具备卓越的多模态感知与推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种应用场景。
下载量 214
发布时间 : 4/17/2025
模型介绍
内容详情
替代品

模型简介

InternVL3-9B采用'ViT-MLP-LLM'架构,整合了InternViT视觉编码器和InternLM3语言模型,通过原生多模态预训练方法实现强大的多模态理解与生成能力。

模型特点

原生多模态预训练
采用统一训练方案同时学习语言和多模态表示,无需单独的校准或桥接模块
可变视觉位置编码(V2PE)
支持更好的长上下文理解能力
混合偏好优化(MPO)
通过正负样本监督提升推理性能
多模态扩展能力
支持工具使用、GUI操作、3D视觉感知等多样化应用

模型能力

多模态推理
数学计算
OCR识别
图表理解
文档分析
多图像理解
视频理解
GUI定位
空间推理
多语言理解

使用案例

工业应用
工业图像分析
用于工业场景中的缺陷检测和质量控制
交互应用
GUI代理
自动化GUI操作和界面理解
3D应用
3D场景理解
理解和分析3D场景信息