I

Internvl3 8B

由 FriendliAI 开发
InternVL3-8B是一款先进的多模态大语言模型,具备卓越的多模态感知和推理能力,在工具使用、GUI代理、工业图像分析等多领域表现出色。
下载量 167
发布时间 : 4/12/2025

模型简介

InternVL3-8B是一款多模态大语言模型,结合了视觉和语言处理能力,支持多种任务和应用场景,包括工具使用、GUI代理、工业图像分析等。

模型特点

原生多模态预训练
将语言和视觉学习整合到一个预训练阶段,提升处理视觉语言任务的能力。
可变视觉位置编码(V2PE)
为视觉标记使用更小、更灵活的位置增量,提升长上下文理解能力。
混合偏好优化(MPO)
引入额外监督,使模型响应分布与真实分布对齐,提高推理性能。
多模态能力扩展
支持工具使用、GUI代理、工业图像分析、3D视觉感知等多领域任务。

模型能力

多模态感知
多模态推理
工具使用
GUI代理
工业图像分析
3D视觉感知
长上下文理解
视频理解
科学图表分析
多语言理解

使用案例

工业应用
工业图像分析
用于工业场景中的图像识别和分析任务。
在工业图像分析任务中表现出色。
GUI操作
GUI代理
用于自动化GUI操作和交互。
在GUI代理任务中表现优异。
多模态推理
多模态推理
结合视觉和语言信息进行复杂推理。
在多模态推理基准测试中表现卓越。
AIbase
智启未来,您的人工智能解决方案智库
简体中文