P

Paligemma 3b Ft Refcoco Seg 896

由 google 开发
PaliGemma是Google开发的轻量级视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持多语言文本生成和视觉理解任务。
下载量 20
发布时间 : 5/12/2024
模型介绍
内容详情
替代品

模型简介

多功能视觉语言模型,接受图像和文本输入生成文本输出,支持图像描述、视觉问答、目标检测和分割等任务。

模型特点

轻量级设计
仅30亿参数规模,适合在各类硬件上部署运行
多任务支持
通过任务前缀配置可支持问答、字幕、分割等多种视觉语言任务
多语言能力
支持多种语言的文本生成和理解
高分辨率处理
支持最高896×896像素的输入图像分辨率

模型能力

图像描述生成
视觉问答
目标检测
图像分割
多语言文本生成
文本阅读理解

使用案例

计算机视觉
图像字幕生成
为输入图像生成多语言描述
在COCO字幕验证集上CIDEr得分144.60
视觉问答
回答关于图像内容的自然语言问题
在VQAv2测试集上准确率85.64
文档处理
文档问答
理解文档图像内容并回答问题
在DocVQA测试集上ANLS得分84.77