V

Video LLaVA 7B Hf

由 LanguageBind 开发
Video-LLaVA是一个开源的多模态模型,通过在多模态指令跟随数据上微调大语言模型进行训练,能够生成交错的图像和视频。
下载量 13.24k
发布时间 : 5/9/2024

模型简介

Video-LLaVA是一个基于Transformer架构的自回归语言模型,能够处理图像和视频的多模态输入,生成相应的文本输出。

模型特点

多模态处理能力
能够生成交错的图像和视频,即使数据集中不存在图像-视频对。
统一视觉表示
使用在投影前通过对齐训练的编码器进行统一视觉表示。
性能优越
与专门为图像或视频设计的模型相比,具有显著优势。

模型能力

图像理解
视频理解
多模态指令跟随
文本生成

使用案例

内容理解
视频内容分析
分析视频内容并回答相关问题
例如:'为什么这个视频有趣?'
图像内容分析
分析图像内容并回答相关问题
例如:'图像中有多少只猫?'
AIbase
智启未来,您的人工智能解决方案智库
简体中文