P

Paligemma 3b Mix 448

由 google 开发
PaliGemma是一款多功能轻量级视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入并生成文本输出
下载量 5,488
发布时间 : 5/13/2024
模型介绍
内容详情
替代品

模型简介

PaliGemma是一款30亿参数的视觉语言模型,接受448*448输入图像和512标记的文本序列,在多个下游学术数据集上进行了微调。支持图像描述、视觉问答、文本阅读、目标检测和分割等多种任务

模型特点

多功能视觉语言能力
支持图像描述、视觉问答、文本阅读、目标检测和分割等多种视觉语言任务
多语言支持
能够处理多种语言的文本输入和输出
轻量级设计
仅30亿参数,相比同类模型更加轻量高效
高质量预训练数据
使用经过严格过滤的WebLI等数据集进行预训练,确保数据质量和安全性

模型能力

图像描述生成
视觉问答
文本阅读
目标检测
目标分割
多语言文本生成

使用案例

内容生成
多语言图像描述
为图像生成不同语言的描述文本
示例输出:'Un auto azul estacionado frente a un edificio.'(西班牙语描述)
视觉理解
视觉问答
回答关于图像内容的自然语言问题
计算机视觉
目标检测
识别图像中的对象并输出边界框坐标
图像分割
对图像中的对象进行分割