B

Blip Image Captioning Large

由 Salesforce 开发
BLIP是一个统一的视觉-语言预训练框架,擅长图像描述生成任务,支持条件式和无条件式图像描述生成。
下载量 2.5M
发布时间 : 12/13/2022
模型介绍
内容详情
替代品

模型简介

基于COCO数据集预训练的图像描述生成模型,采用ViT大型骨干网络,能够为输入图像生成自然语言描述。

模型特点

统一视觉-语言框架
同时支持视觉-语言理解和生成任务,具有灵活的迁移能力
引导式标注技术
通过captioner生成合成描述和filter过滤噪声,有效利用网络数据
多任务适配
可应用于图像文本检索、图像描述生成和视觉问答等多种任务

模型能力

图像描述生成
条件式图像描述
无条件式图像描述
视觉-语言理解

使用案例

内容生成
自动图像标注
为图片库中的图像自动生成描述性文字
提升图片检索效率和可访问性
辅助技术
视障辅助
为视障用户描述图像内容
增强数字内容的可访问性