B

Blip Image Captioning Base Mocha

由 moranyanuka 开发
BLIP基础模型的官方检查点,采用MOCHA强化学习框架在MS-COCO数据集上微调,用于缓解开放词汇描述幻觉问题
下载量 88
发布时间 : 12/19/2023
模型介绍
内容详情
替代品

模型简介

该模型是基于BLIP架构的图像到文本生成模型,专门用于生成图像描述。通过MOCHA强化学习框架微调,有效减少了描述中的幻觉问题。

模型特点

MOCHA强化学习微调
采用MOCHA框架进行微调,有效缓解开放词汇描述中的幻觉问题
双模式生成
支持条件式和非条件式两种图像描述生成方式
多精度支持
可在CPU、GPU上运行,支持全精度和半精度(float16)模式

模型能力

图像描述生成
条件式文本生成
非条件式文本生成
多语言图像理解

使用案例

内容生成
自动图像标注
为社交媒体或内容管理系统中的图像自动生成描述性文字
生成准确、无幻觉的图像描述
辅助视觉障碍人士
为视觉障碍用户提供图像内容的文字描述
提高可访问性,帮助理解视觉内容
计算机视觉研究
视觉语言模型研究
作为视觉语言任务的基线模型或对比模型
提供经过MOCHA优化的基准性能