P

Pic2story

由 abhijit2111 开发
BLIP是一个统一的视觉-语言预训练框架,擅长图像描述生成和理解任务,通过引导描述生成有效利用噪声网络数据
下载量 140
发布时间 : 4/9/2024
模型介绍
内容详情
替代品

模型简介

该模型是基于COCO数据集预训练的图像描述生成模型,采用ViT大型骨干网络架构,支持条件式和非条件式图像描述生成

模型特点

统一视觉-语言框架
可灵活迁移至视觉-语言理解与生成任务
引导描述生成
通过描述生成器和过滤器有效利用噪声网络数据
多任务适配
支持图像描述生成、图文检索和视觉问答等多种任务

模型能力

图像描述生成
视觉-语言理解
条件式文本生成
非条件式文本生成

使用案例

内容生成
自动图像标注
为图片生成描述性文字
在COCO数据集上CIDEr指标提升2.8%
信息检索
图文检索
根据文本查询匹配相关图像
平均召回率@1提升2.7%
智能问答
视觉问答
回答关于图像内容的问题
VQA得分提升1.6%