P

Paligemma2 3b Mix 224

由 google 开发
PaliGemma 2是Google开发的升级版视觉语言模型,结合了Gemma 2的能力,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
下载量 15.23k
发布时间 : 11/21/2024
模型介绍
内容详情
替代品

模型简介

PaliGemma 2是基于SigLIP视觉模型和Gemma 2语言模型构建的视觉语言模型,支持图像描述、视觉问答、文本阅读、目标检测与分割等任务。

模型特点

多任务支持
支持图像描述、视觉问答、文本阅读、目标检测与分割等多种视觉语言任务。
多语言能力
支持多种语言的文本生成和问答任务。
高分辨率输入
支持224×224和448×448两种分辨率输入,适应不同任务需求。
开放组件构建
基于SigLIP视觉模型和Gemma 2语言模型等开放组件构建,便于研究和扩展。

模型能力

图像描述
视觉问答
文本阅读
目标检测
图像分割
多语言文本生成

使用案例

图像理解
图像描述生成
生成图像的短描述或详细描述,支持多种语言。
高质量的描述文本,适用于图像标注和辅助视觉障碍用户。
视觉问答
回答关于图像内容的问题,支持多语言问答。
准确的答案生成,适用于教育、客服等场景。
文本识别
光学字符识别
识别图像中的文本内容。
高精度的文本识别,适用于文档数字化和自动化处理。
目标检测与分割
目标检测
检测图像中的目标并返回边界框坐标。
精确的目标定位,适用于自动驾驶、安防监控等场景。
图像分割
生成目标区域的分割掩码。
高质量的分割结果,适用于医学影像分析、遥感图像处理等。