P

Paligemma2 28b Mix 448

由 google 开发
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像+文本输入,输出文本响应,适用于多种视觉语言任务。
下载量 198
发布时间 : 11/21/2024
模型介绍
内容详情
替代品

模型简介

PaliGemma 2是对PaliGemma视觉语言模型的升级,融合了Gemma 2模型的能力,支持多语言输入(图像+文本)并输出文本,专为图像/短视频描述、视觉问答、文本阅读、目标检测与分割等任务的卓越微调性能设计。

模型特点

多任务支持
支持短/长描述生成、光学字符识别、问答、目标检测与分割等多种任务。
高性能微调
针对多样化任务集进行了微调,可直接使用或进一步微调。
多语言输入
支持多语言文本输入,适用于全球化的应用场景。

模型能力

图像描述生成
视觉问答
光学字符识别
目标检测
图像分割

使用案例

图像理解
图像描述生成
生成图像的简短或详细描述。
支持多种语言描述生成。
视觉问答
回答关于图像内容的问题。
在AOKVQA-DA基准测试中达到71.2的准确率。
文档处理
光学字符识别
识别图像中的文字内容。
在ICDAR 2015 Inc基准测试中F1达到75.9。