B

Blip Image Captioning Large

由 movementso 开发
BLIP是一个统一的视觉语言预训练框架,擅长图像描述生成和理解任务,通过引导式标注策略高效利用网络数据
下载量 18
发布时间 : 6/25/2023
模型介绍
内容详情
替代品

模型简介

基于COCO数据集预训练的视觉语言模型,能够生成图像的自然语言描述,支持条件式和非条件式图像描述生成

模型特点

统一视觉语言框架
同时支持视觉语言理解和生成任务,具有灵活的迁移能力
引导式标注策略
通过标注器生成合成描述,过滤器剔除低质量样本,有效利用噪声网络数据
多任务适应性
可应用于图像-文本检索、图像描述生成和视觉问答等多种任务

模型能力

图像描述生成
视觉语言理解
条件式图像描述
非条件式图像描述

使用案例

内容生成
自动图像标注
为图像自动生成描述性文字
在COCO数据集上CIDEr指标提升2.8%
辅助技术
视障辅助
为视障用户描述图像内容