P

Paligemma 3b Pt 448

由 google 开发
PaliGemma是一款轻量级多功能视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持多语言图像文本交互任务。
下载量 2,708
发布时间 : 5/13/2024
模型介绍
内容详情
替代品

模型简介

PaliGemma接受图像和文本输入并生成文本输出,专为图像描述、视觉问答、文本阅读、目标检测和分割等视觉语言任务设计,需通过微调实现最佳性能。

模型特点

轻量级高效架构
仅30亿参数却实现多功能视觉语言理解,适合资源有限场景部署。
多任务适配设计
通过任务前缀(如'detect'或'segment')灵活配置不同视觉语言任务。
负责任数据过滤
预训练数据经过色情过滤、毒性检测等多层安全过滤,符合AI伦理标准。

模型能力

图像描述生成
视觉问答
文档文本理解
目标检测坐标输出
图像分割代码生成
多语言文本生成

使用案例

内容理解
多语言图像描述
输入图像生成西班牙语等34种语言的描述文本
输出示例:'Un auto azul estacionado frente a un edificio.'
文档信息提取
从扫描文档或照片中提取结构化文本信息
在DocVQA基准测试ANLS达84.77(896px版本)
工业检测
缺陷定位标注
通过'detect'前缀生成产品缺陷的边界框坐标