P

Paligemma2 3b Pt 224

由 google 开发
PaliGemma 2是Google开发的视觉语言模型(VLM),结合了Gemma 2语言模型和SigLIP视觉模型的能力,支持多语言视觉语言任务。
下载量 30.51k
发布时间 : 11/21/2024
模型介绍
内容详情
替代品

模型简介

PaliGemma 2是基于Gemma 2和SigLIP的视觉语言模型,接受图像和文本输入并生成文本输出,适用于图像字幕生成、视觉问答等多种任务。

模型特点

多模态处理能力
同时处理图像和文本输入,生成文本输出
多语言支持
支持多种语言的视觉语言任务
高分辨率适应
支持224x224和448x448两种分辨率输入
负责任AI
训练数据经过严格过滤,移除不安全内容

模型能力

图像字幕生成
视觉问答
文本阅读
目标检测
图像分割
多语言处理

使用案例

内容理解
图像描述生成
为输入图像生成详细描述
在COCO-35L数据集上英语字幕CIDEr得分142.4
视觉问答
回答关于图像内容的问题
在AOKVQA-DA验证集上准确率70.2%
文档处理
文档问答
从文档图像中提取信息回答问题
在DocVQA验证集上准确率76.1%