P

Promptcap Coco Vqa

由 tifa-benchmark 开发
PromptCap是一个可通过自然语言指令控制的图像描述生成模型,支持视觉问答和通用描述生成任务。
下载量 121
发布时间 : 1/23/2023
模型介绍
内容详情
替代品

模型简介

PromptCap是一个基于提示引导的任务感知图像描述生成模型,能够根据用户提供的自然语言指令生成图像描述,支持与GPT-3等大语言模型配合使用。

模型特点

提示引导控制
可通过自然语言指令控制描述生成,支持特定问题引导和通用描述生成
轻量级视觉插件
比BLIP-2更快,适合与GPT-3、ChatGPT等大语言模型配合使用
OCR支持
能够处理包含OCR文本输入的图像描述生成任务
开放域问答
与传统VQA模型不同,支持与任意文本QA模型结合进行开放域问答

模型能力

图像描述生成
视觉问答
多模态理解
OCR文本处理
开放域问答

使用案例

视觉问答
知识型视觉问答
与GPT-3结合回答需要外部知识的视觉问题
在OK-VQA上达到60.4%,A-OKVQA上达到59.6%的SOTA表现
多选题问答
支持基于给定选项的多选题视觉问答
图像描述生成
通用图像描述
生成图像的通用描述
在COCO描述生成任务上达到150 CIDEr的SOTA性能
任务感知描述
根据特定问题生成聚焦的图像描述