I

Internvl 14B 224px

由 OpenGVLab 开发
InternVL-14B-224px 是一个14B参数量的视觉语言基础模型,支持多种视觉语言任务。
下载量 521
发布时间 : 12/22/2023
模型介绍
内容详情
替代品

模型简介

该模型是一个强大的视觉语言基础模型,支持零样本图像/视频分类、图文/视频检索、图像描述生成等多种任务。

模型特点

多任务支持
支持零样本图像/视频分类、图文/视频检索、图像描述生成等多种视觉语言任务。
多语言支持
能够处理英文、中文、日文等多种语言的文本输入。
高性能
在多个基准测试中表现出色,具有强大的零样本性能。

模型能力

零样本图像分类
零样本视频分类
图文检索
视频检索
图像描述生成

使用案例

内容理解
图像分类
无需微调即可对图像进行分类
在多个数据集上表现出色
图像描述生成
为输入图像生成自然语言描述
生成准确、流畅的描述
信息检索
跨模态检索
根据文本检索相关图像或视频
检索准确率高