P

Paligemma 3b Mix 224

由 google 开发
PaliGemma是一款多功能、轻量级的视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入,输出文本结果。
下载量 143.03k
发布时间 : 5/12/2024
模型介绍
内容详情
替代品

模型简介

PaliGemma接受图像和文本作为输入并生成文本输出,支持多种语言。设计用于广泛的视觉语言任务,如图像描述、视觉问答、文本阅读、目标检测和分割等。

模型特点

多任务支持
通过任务前缀配置可解决多种视觉语言任务,如检测、分割、问答等
轻量级设计
仅30亿参数的紧凑模型,适合多种应用场景
多语言能力
支持多种语言的文本生成和理解
负责任AI
训练数据经过严格过滤,移除了不安全、有毒和敏感内容

模型能力

图像描述生成
视觉问答
文本阅读
目标检测
目标分割
多语言文本生成

使用案例

内容理解
图像描述生成
为输入图像生成描述性文本
在COCO描述验证集上CIDEr得分144.60(448分辨率)
智能交互
视觉问答
回答关于图像内容的问题
计算机视觉
目标检测
检测图像中的目标并输出边界框坐标
图像分割
对图像中的目标进行分割