P

Paligemma 3b Ft Docvqa 896

由 google 开发
PaliGemma是Google开发的轻量级视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持多语言图像文本理解与生成。
下载量 519
发布时间 : 5/12/2024
模型介绍
内容详情
替代品

模型简介

多功能视觉语言模型,接收图像和文本输入并生成文本输出,支持图像描述、视觉问答、文本阅读、目标检测与分割等任务。

模型特点

轻量高效
仅30亿参数规模,在保持高性能的同时降低计算资源需求
多任务支持
通过任务前缀配置可支持问答、描述、检测、分割等多种视觉语言任务
多语言能力
预训练数据涵盖35种语言,支持跨语言图像理解与生成
负责任AI
训练数据经过严格的内容安全过滤和伦理审查

模型能力

图像描述生成
视觉问答
文档理解
目标检测
图像分割
多语言文本生成

使用案例

文档处理
DocVQA文档问答
从扫描文档或图像中提取信息并回答问题
在DocVQA数据集上专门微调
内容审核
图像安全检测
识别图像中的敏感或不适当内容
通过Perspective API实现毒性检测
多语言应用
跨语言图像描述
用不同语言生成图像描述
示例显示西班牙语描述能力