P

Paligemma2 3b Mix 224 Jax

由 google 开发
PaliGemma 2是基于Gemma 2的升级版视觉语言模型,支持多语言图文输入与文本输出,专为视觉语言任务设计
下载量 38
发布时间 : 2/3/2025
模型介绍
内容详情
替代品

模型简介

整合SigLIP视觉模型和Gemma 2语言模型的开放组件,在图像描述、视觉问答、文本阅读、目标检测与分割等任务上表现优异

模型特点

多任务统一架构
单一模型支持描述生成、问答、OCR、目标检测与分割等多种视觉语言任务
多语言支持
通过CC3M-35L等数据集扩展支持34种语言的视觉语言理解
负责任AI设计
训练数据经过色情/毒性/隐私等多重过滤,符合Google内容安全政策

模型能力

图像描述生成
视觉问答
光学字符识别
目标检测
图像分割
多语言理解

使用案例

辅助技术
盲人视觉辅助
为视障用户提供图像内容描述
在AOKVQA验证集达到64.2准确率
文档处理
场景文本识别
从自然场景图像中提取文本内容
ICDAR 2015基准F1值75.9
内容审核
图像安全分析
检测图像中的敏感内容
通过人工评估符合安全阈值