B

Blip Custom Captioning

由 hiteshsatwani 开发
BLIP是一个统一的视觉-语言预训练框架,擅长图像描述生成等视觉-语言任务
下载量 78
发布时间 : 4/19/2025
模型介绍
内容详情
替代品

模型简介

基于ViT基础架构的图像描述生成模型,支持条件式和非条件式的图像描述生成,在COCO数据集上预训练

模型特点

统一视觉-语言框架
同时支持视觉-语言理解和生成任务,实现多功能统一架构
引导式数据增强
通过字幕生成器合成描述并过滤噪声数据,有效提升训练数据质量
零样本迁移能力
在视频语言任务上展现出优秀的零样本迁移性能

模型能力

图像描述生成
条件式图像描述
视觉-语言理解
多模态任务处理

使用案例

内容生成
自动图像标注
为图像生成自然语言描述
在COCO数据集上CIDEr指标提升2.8%
辅助技术
视障辅助
为视障用户描述图像内容