I

Internvl3 14B Hf

由 OpenGVLab 开发
InternVL3-14B是一个强大的多模态大语言模型,在多模态感知和推理能力上表现卓越,支持图像、文本、视频等多种输入。
下载量 4,260
发布时间 : 4/18/2025

模型简介

InternVL3-14B是一个功能强大的多模态大语言模型,具备卓越的多模态感知和推理能力,支持图像、文本、视频等多种输入,适用于工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域。

模型特点

多模态能力强
相比InternVL 2.5,InternVL3展现出更出色的多模态感知和推理能力,还将多模态能力扩展到工具使用、GUI代理、工业图像分析、3D视觉感知等领域。
文本性能优
与Qwen2.5聊天模型对比,得益于原生多模态预训练,InternVL3系列在整体文本性能上表现更优。
支持多种输入
支持图像、文本、视频的单输入、批量输入以及交错输入。

模型能力

图像描述
文本生成
视频分析
多模态推理
工具使用
GUI代理
工业图像分析
3D视觉感知

使用案例

图像分析
图像描述
对输入的图像进行详细描述
生成详细的图像描述文本
文本生成
诗歌生成
根据提示生成诗歌
生成符合要求的诗歌文本
视频分析
视频内容理解
分析视频内容并回答问题
准确回答关于视频内容的问题
AIbase
智启未来,您的人工智能解决方案智库
简体中文