I

Internvl3 8B AWQ

由 OpenGVLab 开发
InternVL3-8B是OpenGVLab推出的先进多模态大语言模型,具备强大的多模态感知与推理能力,支持工具调用、GUI智能体、工业图像分析、3D视觉感知等新领域。
下载量 1,441
发布时间 : 4/17/2025
模型介绍
内容详情
替代品

模型简介

基于InternViT-300M-448px-V2_5视觉组件和Qwen2.5-7B语言组件的多模态大模型,通过原生多模态预训练技术实现卓越性能。

模型特点

原生多模态预训练
将语言与视觉学习统一于单一预训练阶段,无需额外对齐模块即可增强视觉语言任务处理能力
可变视觉位置编码(V2PE)
通过精细灵活的位置增量处理视觉token,提升长上下文理解能力
混合偏好优化(MPO)
通过正负样本监督使模型响应分布对齐真实分布,提升推理能力

模型能力

多模态推理
数学计算
OCR识别
图表理解
文档解析
多图像理解
视频理解
GUI定位
空间推理
多语言理解

使用案例

工业应用
工业图像分析
分析生产线上的产品缺陷和质量问题
高精度识别各类工业缺陷
智能交互
GUI智能体
理解并操作图形用户界面
实现自动化GUI操作
教育科研
科学图表理解
解析科研论文中的复杂图表
准确提取图表中的关键信息