I

Internvl3 8B Hf

由 OpenGVLab 开发
InternVL3 是一个先进的多模态大语言模型系列,具备强大的多模态感知和推理能力,支持图像、视频和文本输入。
下载量 454
发布时间 : 4/18/2025
模型介绍
内容详情
替代品

模型简介

InternVL3 是 OpenGVLab 推出的多模态大语言模型,展现出卓越的综合性能。相比前代版本,它具备更强大的多模态感知和推理能力,并扩展了工具使用、GUI 代理、工业图像分析、3D 视觉感知等能力。

模型特点

多模态能力
支持图像、视频和文本输入,具备强大的多模态感知和推理能力。
扩展功能
除了基础的多模态能力,还支持工具使用、GUI 代理、工业图像分析、3D 视觉感知等扩展功能。
批量处理
支持图像和文本输入的批量处理,提高推理效率。
原生 Transformers 实现
作为原生 Transformers 模型,支持核心库功能,如多种注意力实现(包括 SDPA 和 FA2)。

模型能力

图像描述生成
视频内容理解
多模态对话
文本生成
多语言支持
批量推理

使用案例

内容理解与生成
图像描述
根据输入图像生成详细描述
生成包含细节的自然语言描述
视频分析
理解视频内容并回答问题
准确识别视频中的动作和场景
创意内容生成
诗歌创作
根据图像或纯文本提示生成诗歌
生成符合主题的创意文本
工业应用
工业图像分析
分析工业场景中的图像
识别工业场景中的特定对象和状态