I

Internvl3 38B Instruct GGUF

由 unsloth 开发
InternVL3-38B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的整体性能,具备强大的多模态感知和推理能力。
下载量 1,236
发布时间 : 5/19/2025
模型介绍
内容详情
替代品

模型简介

InternVL3-38B-Instruct 是 InternVL3 系列的 SFT 版本,经过原生多模态预训练和监督微调,支持多模态任务如图像文本理解、工具使用、GUI 代理、工业图像分析等。

模型特点

原生多模态预训练
将语言和视觉学习整合到一个预训练阶段,增强多模态表示能力。
可变视觉位置编码(V2PE)
使用更小、更灵活的位置增量处理视觉标记,提升长上下文理解能力。
混合偏好优化(MPO)
通过正负样本监督对齐模型响应分布,提升推理性能。
动态分辨率支持
支持多图像和视频数据,动态处理不同分辨率的输入。

模型能力

多模态文本生成
图像理解
视频理解
工具使用
GUI 代理
工业图像分析
3D 视觉感知
多语言支持

使用案例

多模态推理
图像描述生成
根据输入图像生成详细描述。
生成高质量的图像描述,支持多轮对话。
视频理解
分析视频内容并生成描述。
支持多帧视频分析,生成连贯的视频描述。
工具使用
GUI 操作
根据 GUI 截图生成操作指令。
生成准确的 GUI 操作步骤。
工业应用
工业图像分析
分析工业场景中的图像数据。
支持复杂的工业图像理解任务。