C

Chat UniVi 13B

由 Chat-UniVi 开发
Chat-UniVi是一个统一视觉表征的大语言模型,能够同时理解图像和视频内容。
下载量 57
发布时间 : 11/21/2023

模型简介

Chat-UniVi通过动态视觉标记统一表征图像和视频,使大语言模型能够高效处理两种视觉媒介,在图像和视频理解任务上均表现出色。

模型特点

统一视觉表征
采用动态视觉标记统一表征图像和视频,高效利用有限视觉标记捕捉空间细节和时序关系
联合训练策略
在包含图像和视频的混合数据集上训练,可直接应用于两种媒介任务
高性能互补学习
作为统一模型,性能优于专为图像或视频设计的专用方法

模型能力

图像理解
视频理解
视觉问答
视频描述生成
图像描述生成

使用案例

内容理解
视频内容描述
自动生成视频内容的文字描述
生成准确描述视频内容的文本
图像内容分析
分析图像内容并回答相关问题
提供准确的图像内容理解和回答
媒体处理
视频摘要
从长视频中提取关键内容生成摘要
生成简洁准确的视频摘要
AIbase
智启未来,您的人工智能解决方案智库
简体中文