P

Paligemma2 3b Pt 448

由 google 开发
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
下载量 3,412
发布时间 : 11/21/2024
模型介绍
内容详情
替代品

模型简介

PaliGemma 2是对PaliGemma视觉语言模型的更新,融合了Gemma 2模型的能力,支持图像和短视频字幕生成、视觉问答、文本阅读、目标检测和分割等任务。

模型特点

多任务支持
支持多种视觉语言任务,包括图像字幕生成、视觉问答、文本阅读、目标检测和分割。
多语言能力
支持多种语言的文本输入和输出,适用于国际化应用场景。
高分辨率处理
支持448*448输入图像,提高视觉任务的精度和细节处理能力。
负责任AI
训练数据经过严格过滤,确保安全和负责任的数据使用。

模型能力

图像字幕生成
视觉问答
文本阅读
目标检测
目标分割
多语言文本生成

使用案例

图像理解
图像描述生成
根据输入图像生成详细的文本描述。
在COCO-35L数据集上英语描述得分142.4
视觉问答
回答关于图像内容的自然语言问题。
在AOKVQA-DA验证集上准确率71.2
文档处理
文档视觉问答
从文档图像中提取信息并回答问题。
在DocVQA验证集上准确率76.1
图表理解
解析图表图像并回答相关问题。
在ChartQA人工数据集上准确率66.4