I

Internvl3 38B Hf

由 OpenGVLab 开发
InternVL3-38B是一个先进的多模态大语言模型(MLLM),在多模态感知和推理能力上有显著提升,支持工具使用、GUI代理、工业图像分析、3D视觉感知等领域。
下载量 2,226
发布时间 : 4/18/2025

模型简介

InternVL3-38B是一个多模态大语言模型,支持图像、视频和文本的联合处理,具备强大的多模态推理能力。

模型特点

先进的多模态能力
相比前代模型,在多模态感知和推理能力上有显著提升,支持工具使用、GUI代理、工业图像分析、3D视觉感知等领域。
高效的批量推理
作为原生的Transformers模型,支持多种注意力机制的实现(包括SDPA和FA2),并能高效地处理包含图像、视频和文本的批量输入。
多语言支持
支持多种语言,适用于不同地区的用户。

模型能力

图像描述生成
视频内容理解
多模态推理
工具使用
GUI代理
工业图像分析
3D视觉感知
文本生成

使用案例

图像理解
图像描述生成
对输入的图像生成详细的描述。
生成准确且详细的图像描述。
视频理解
视频内容分析
对输入的视频内容进行分析和描述。
准确识别视频中的动作和内容。
多模态交互
多模态聊天
支持图像、视频和文本的联合输入和交互。
实现自然的多模态对话。
AIbase
智启未来,您的人工智能解决方案智库
简体中文