E

Eilev Blip2 Opt 2.7b

由 kpyu 开发
基于BLIP-2-OPT-2.7B训练的第一人称视角视频优化视觉语言模型,采用EILEV创新方法激发上下文学习能力
下载量 214
发布时间 : 11/28/2023
模型介绍
内容详情
替代品

模型简介

针对第一人称视角视频优化的视觉语言模型,能够执行跨视频与文本的上下文学习,基于Ego4D数据集训练

模型特点

EILEV训练方法
无需海量自然视频数据集即可激发视觉语言模型在视频中的上下文学习能力
第一人称视角优化
专门针对第一人称视角视频内容进行优化
跨模态学习
能够理解视频与文本之间的关联,进行跨模态学习

模型能力

视频字幕生成
图像字幕生成
视觉问答
视频转文本
图像转文本

使用案例

视频理解
第一人称视频字幕生成
为第一人称视角视频自动生成描述性字幕
图像理解
图像描述生成
为图像生成自然语言描述
问答系统
视觉问答
回答关于图像或视频内容的自然语言问题