I

Internvl3 78B Instruct

由 OpenGVLab 开发
InternVL3-78B-Instruct是OpenGVLab推出的先进多模态大语言模型,展示了卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种任务。
下载量 345
发布时间 : 4/16/2025

模型简介

InternVL3-78B-Instruct是一个基于原生多模态预训练和SFT的多模态大语言模型,具备强大的多模态理解和推理能力,适用于多种视觉和语言任务。

模型特点

原生多模态预训练
将语言和视觉学习整合到一个预训练阶段,增强多模态任务处理能力。
动态分辨率策略
支持多图像和视频数据,采用448×448像素的块处理图像。
可变视觉位置编码(V2PE)
使用更小、更灵活的位置增量处理视觉令牌,提升长上下文理解能力。
混合偏好优化(MPO)
通过正负样本监督对齐模型响应分布,提升推理性能。

模型能力

多模态推理
OCR和文档理解
多图像理解
视觉定位
多语言理解
视频理解
GUI定位
空间推理

使用案例

工业图像分析
工业缺陷检测
通过图像分析检测工业产品中的缺陷。
高精度识别缺陷,提升生产效率。
3D视觉感知
3D场景理解
理解和分析3D场景中的物体和关系。
提升3D场景的语义理解能力。
GUI操作
自动化GUI测试
通过视觉理解自动化测试GUI界面。
提高测试效率和覆盖率。
AIbase
智启未来,您的人工智能解决方案智库
简体中文