C

Chat UniVi

由 Chat-UniVi 开发
Chat-UniVi是一个统一视觉表征的大语言模型,能够同时理解图像和视频内容。
下载量 12.10k
发布时间 : 9/28/2023
模型介绍
内容详情
替代品

模型简介

Chat-UniVi通过动态视觉标记集统一表征图像和视频,使大语言模型能够同时处理两种视觉媒介的理解任务。

模型特点

统一视觉表征
采用动态视觉标记集统一表征图像和视频,同时捕捉空间细节和时序关系
联合训练策略
在包含图像和视频的混合数据集上进行训练,可直接应用于两种媒介的任务
互补学习优势
图像与视频的联合训练带来互补学习效果,性能优于单一媒介专用模型

模型能力

视频内容理解
图像内容理解
多模态对话
视觉问答
视频描述生成
图像描述生成

使用案例

内容理解
视频内容摘要
自动生成视频内容的文字描述和摘要
可准确捕捉视频中的关键事件和时序关系
图像内容分析
理解图像中的对象、场景和关系
能详细描述图像内容和空间关系
智能交互
多模态对话系统
基于视觉内容的自然语言对话
能理解用户问题并基于视觉内容给出合理回答