P

Paligemma 3b Pt 896

由 google 开发
PaliGemma是一款多功能轻量级视觉语言模型(VLM),支持图像和文本输入,生成文本输出,具备多语言能力。
下载量 1,788
发布时间 : 5/13/2024

模型简介

PaliGemma专为广泛的视觉语言任务设计,如图像字幕、视觉问答、文本阅读、目标检测和分割等,旨在实现一流的微调性能。

模型特点

多功能性
支持图像和文本输入,能处理多种视觉语言任务
多语言支持
可处理多种语言的输入和输出
轻量级设计
模型参数适中,便于在不同场景下使用
高性能微调
专为在视觉语言任务中实现一流的微调性能而设计

模型能力

图像字幕生成
视觉问答
文本阅读
目标检测
目标分割
多语言处理

使用案例

图像理解
图像字幕生成
为图像生成描述性文字
在COCO字幕数据集上CIDEr得分144.60
视觉问答
回答关于图像内容的问题
在VQAv2数据集上准确率85.64%
文档处理
文档问答
回答关于文档内容的问题
在DocVQA数据集上ANLS得分84.77
文本阅读
识别和理解图像中的文本
在TextVQA数据集上准确率76.48%
计算机视觉
目标检测
识别图像中的物体并定位
目标分割
识别图像中的物体并进行像素级分割
在RefCOCO数据集上MIoU最高76.94
AIbase
智启未来,您的人工智能解决方案智库
简体中文