eilev-blip2-opt-2.7b开源视觉语言模型 - 优化第一人称视角视频解读

首页

Eilev Blip2 Opt 2.7b

由 kpyu 开发

基于BLIP-2-OPT-2.7B训练的第一人称视角视频优化视觉语言模型，采用EILEV创新方法激发上下文学习能力

图像生成文本

Transformers

英语开源协议:MIT #第一人称视频理解 #零样本上下文学习 #视觉语言联合建模

下载量 214

发布时间 : 11/28/2023

模型简介

针对第一人称视角视频优化的视觉语言模型，能够执行跨视频与文本的上下文学习，基于Ego4D数据集训练

模型特点

EILEV训练方法

无需海量自然视频数据集即可激发视觉语言模型在视频中的上下文学习能力

第一人称视角优化

专门针对第一人称视角视频内容进行优化

跨模态学习

能够理解视频与文本之间的关联，进行跨模态学习

模型能力

视频字幕生成

图像字幕生成

视觉问答

视频转文本

图像转文本

使用案例

视频理解

第一人称视频字幕生成

为第一人称视角视频自动生成描述性字幕

图像理解

图像描述生成

为图像生成自然语言描述

问答系统

视觉问答

回答关于图像或视频内容的自然语言问题

属性	详情
模型类型	视觉语言模型（VLM）
训练数据	Ego4D
标签	视频转文本、视频字幕生成、图像转文本、图像字幕生成、视觉问答、BLIP - 2
库名称	transformers
任务类型	图像转文本

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Eilev Blip2 Opt 2.7b

模型简介

模型特点

模型能力

使用案例

🚀 EILEV BLIP - 2 - OPT - 2.7B模型卡片

📚 详细文档

🔍 模型描述

🌐 模型来源

⚠️ 偏差、风险和局限性

🚀 快速开始

📄 许可证