I

Internvl3 2B Hf

由 OpenGVLab 开发
InternVL3-2B是基于Hugging Face Transformers库实现的多模态大语言模型,在图像、视频和文本处理等多模态任务上表现出色,支持多种输入方式和高效的批量推理。
下载量 41.22k
发布时间 : 4/18/2025

模型简介

InternVL3-2B是一个先进的多模态大语言模型,支持图像、视频和文本的交错输入处理,具备强大的多模态感知和推理能力,适用于多种视觉-语言任务。

模型特点

多模态处理能力
支持图像、视频和文本的交错输入处理,实现真正的多模态理解
批量推理支持
能够高效处理批量图像和文本输入,提升推理效率
先进的多模态预训练
通过原生多模态预训练,在文本性能上甚至优于纯语言模型
扩展应用领域
支持工具使用、GUI代理、工业图像分析、3D视觉感知等扩展应用

模型能力

图像描述生成
视频内容理解
多模态对话
跨模态推理
文本生成
多语言处理
批量多图像处理

使用案例

内容理解与生成
图像描述生成
对输入图像生成详细描述
能够准确描述图像中的物体、场景和关系
视频内容分析
理解视频内容并回答问题
能够识别视频中的动作和事件
创意应用
图像启发诗歌创作
根据图像内容创作诗歌
能够生成符合图像意境的诗歌
教育应用
地标识别与描述
识别并描述图像中的著名地标
能够准确识别并描述多个著名地标
AIbase
智启未来,您的人工智能解决方案智库
简体中文