B

Blip Vqa Base

由 Salesforce 开发
BLIP是一个统一的视觉语言预训练框架,擅长视觉问答任务,通过语言-图像联合训练实现多模态理解与生成能力
下载量 1.9M
发布时间 : 12/12/2022
模型介绍
内容详情
替代品

模型简介

基于ViT架构的视觉问答模型,能够理解图像内容并回答相关问题,支持条件式与非条件式图像描述生成

模型特点

统一理解与生成
同时支持视觉语言理解任务和生成任务,突破传统模型单一能力的限制
标题自举机制
通过生成器合成描述文本和过滤器剔除噪声数据,有效提升训练数据质量
零样本迁移能力
在视频语言任务等新领域展现出优秀的泛化性能

模型能力

图像内容理解
视觉问题回答
图像描述生成
多模态推理

使用案例

智能辅助
视障人士辅助
通过问答形式为视障用户描述图像内容
准确识别图像中的物体数量(如示例中正确识别1只狗)
内容审核
图像内容审查
自动分析图像内容并回答特定问题