P

Paligemma2 10b Mix 448

由 google 开发
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
下载量 31.63k
发布时间 : 11/21/2024
模型介绍
内容详情
替代品

模型简介

PaliGemma 2是对PaliGemma视觉语言模型的更新,整合了Gemma 2模型的能力,支持图像标题生成、视觉问答、文本阅读、对象检测和分割等多种任务。

模型特点

多任务支持
支持图像标题生成、视觉问答、文本阅读、对象检测和分割等多种视觉语言任务。
多语言能力
支持多种语言的文本生成和理解。
高分辨率处理
支持448x448输入图像分辨率,提升视觉任务的准确性。
负责任AI
应用了多种数据过滤方法,确保训练数据的安全性和负责任性。

模型能力

图像标题生成
视觉问答
光学字符识别
对象检测
图像分割
多语言文本生成

使用案例

内容生成
图像标题生成
为图像生成短标题或详细描述。
在COCO-35L数据集上达到142.4 CIDEr分数(英语)
视频标题生成
为短视频生成描述性标题。
视觉理解
视觉问答
回答关于图像内容的自然语言问题。
在AOKVQA-DA验证集上达到70.8准确率
文本阅读
从图像中识别和提取文本内容。
在DocVQA验证集上达到76.6准确率
计算机视觉
对象检测
检测图像中的对象并返回边界框坐标。
图像分割
定位图像中对象占据的区域并生成分割掩码。