E

Eilev Blip2 Flan T5 Xl

由 kpyu 开发
针对第一人称视角视频优化的视觉语言模型,采用EILEV创新训练方法激发上下文学习能力
下载量 135
发布时间 : 11/28/2023
模型介绍
内容详情
替代品

模型简介

基于BLIP-2和Flan-T5-xl训练的视觉语言模型,专门优化用于第一人称视角视频理解,能够执行视频与文本间的上下文学习任务

模型特点

EILEV训练方法
无需海量自然视频数据集即可激发视觉语言模型在视频中的上下文学习能力
第一人称视角优化
专门针对第一人称视角视频数据进行优化训练
跨模态理解
能够处理视频与文本之间的上下文学习任务

模型能力

视频转文本
视频字幕生成
图像转文本
图像字幕生成
视觉问答
跨模态上下文理解

使用案例

视频理解
第一人称视频字幕生成
为第一人称视角视频自动生成描述性字幕
视频内容问答
回答关于视频内容的自然语言问题
图像理解
图像描述生成
为输入图像生成自然语言描述