P

Paligemma2 10b Mix 224

由 google 开发
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
下载量 701
发布时间 : 11/21/2024
模型介绍
内容详情
替代品

模型简介

PaliGemma 2是一个升级版的视觉语言模型,整合了Gemma 2的能力,支持多语言,适用于图像描述、视觉问答、文本阅读、目标检测与分割等任务。

模型特点

多任务支持
支持多种视觉语言任务,包括图像描述、视觉问答、目标检测与分割等。
多语言支持
支持多种语言的文本生成和问答任务。
高性能微调
提供预训练和微调版本,适合直接使用或进一步微调。

模型能力

图像描述
视觉问答
光学字符识别
目标检测
目标分割
多语言文本生成

使用案例

图像理解
图像描述生成
生成图像的短描述或详细描述。
生成符合图像内容的描述文本。
视觉问答
回答关于图像内容的问题。
生成准确的答案文本。
文本识别
光学字符识别
识别图像中的文本内容。
生成图像中的文本内容。
目标检测与分割
目标检测
检测图像中的目标并返回边界框坐标。
生成目标的边界框坐标。
目标分割
生成目标的分割区域。
生成目标的分割代码。