I

Internvl3 78B Hf

由 OpenGVLab 开发
InternVL3 是一个先进的多模态大语言模型系列,具备强大的多模态感知和推理能力,支持图像、视频和文本输入。
下载量 40
发布时间 : 4/18/2025

模型简介

InternVL3 是 OpenGVLab 推出的多模态大语言模型,展现出卓越的整体性能。该模型支持图像、视频和文本输入,具备强大的多模态感知和推理能力,适用于多种视觉-语言任务。

模型特点

多模态感知
支持图像、视频和文本输入,具备强大的多模态感知能力。
高效推理
支持批量推理,可处理交错的图像、视频和文本输入。
广泛的应用场景
适用于工具使用、GUI 代理、工业图像分析、3D 视觉感知等多种场景。
性能优越
在整体文本性能上优于 Qwen2.5 系列。

模型能力

图像描述
视频理解
文本生成
多模态推理
批量处理

使用案例

图像理解
图像描述
对输入的图像进行详细描述。
生成准确且详细的图像描述文本。
地标识别
识别图像中的著名地标。
准确识别并描述地标特征。
视频理解
动作识别
识别视频中的动作或行为。
准确描述视频中的动作类型。
创意生成
俳句创作
根据图像或文本提示创作俳句。
生成富有诗意的俳句文本。
AIbase
智启未来,您的人工智能解决方案智库
简体中文