C

Chat UniVi 7B V1.5

由 Chat-UniVi 开发
Chat-UniVi是一个统一视觉表征的大语言模型,能够同时理解图像和视频内容。
下载量 649
发布时间 : 4/12/2024
模型介绍
内容详情
替代品

模型简介

Chat-UniVi通过动态视觉标记集统一表征图像和视频,使大语言模型能够同时处理两种视觉媒介,在图像和视频理解任务上均表现出色。

模型特点

统一视觉表征
采用动态视觉标记集统一表征图像和视频,使模型能同时处理两种视觉媒介
联合训练策略
在包含图像和视频的混合数据集上进行训练,可直接应用于两种媒介的任务
互补学习
图像与视频的联合训练使模型在两种任务上均优于单一媒介专用模型

模型能力

视频内容描述
图像内容描述
视觉问答
跨模态理解

使用案例

内容理解
视频内容摘要
自动生成视频内容的文字描述
可准确捕捉视频中的关键内容和时序关系
图像描述生成
为图像生成详细文字描述
能识别图像中的对象、场景和空间关系
智能交互
视觉问答
回答关于图像或视频内容的问题
能理解视觉内容并生成准确回答