I

Internvl3 38B Instruct

由 OpenGVLab 开发
InternVL3-38B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种任务。
下载量 468
发布时间 : 4/16/2025
模型介绍
内容详情
替代品

模型简介

InternVL3-38B-Instruct 是 InternVL3 系列的 SFT 版本,经过原生多模态预训练和监督微调,具备强大的多模态理解和生成能力。

模型特点

原生多模态预训练
将语言和视觉学习整合到一个预训练阶段,增强了多模态任务的处理能力。
可变视觉位置编码(V2PE)
使用更小、更灵活的位置增量处理视觉标记,提升了长上下文理解能力。
混合偏好优化(MPO)
通过正负样本的额外监督,对齐模型响应分布与地面真实分布,提高推理性能。
动态分辨率策略
将图像分割为448×448像素的块,支持多图像和视频数据的处理。

模型能力

多模态推理
OCR
图表理解
文档理解
多图像理解
视频理解
GUI定位
空间推理
工具使用
3D视觉感知

使用案例

工业图像分析
缺陷检测
识别工业图像中的缺陷或异常。
高精度识别缺陷,提升生产效率。
文档处理
文档理解
解析和理解复杂文档内容。
高效提取关键信息,支持自动化文档处理。
视频分析
视频内容理解
分析视频内容并生成描述。
准确理解视频场景和动作。