P

Paligemma 3b Ft Ocrvqa 448

由 google 开发
PaliGemma是Google开发的多功能轻量级视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入,输出文本结果。
下载量 365
发布时间 : 5/12/2024
模型介绍
内容详情
替代品

模型简介

基于448*448输入图像在OCR-VQA数据集上微调的3B参数模型,专为视觉语言任务设计,如图像字幕生成、视觉问答、文本阅读等。

模型特点

轻量级多功能
仅30亿参数却具备多种视觉语言任务处理能力
多分辨率支持
支持224/448/896等多种输入分辨率,适应不同任务需求
任务前缀配置
通过任务前缀(如'detect'或'segment')灵活配置模型处理任务
负责任数据过滤
训练数据经过严格的内容安全和个人信息过滤

模型能力

图像字幕生成
视觉问答
文本阅读
目标检测
图像分割
多语言处理

使用案例

文档处理
OCR-VQA
基于图像中的文本内容回答问题
测试准确率74.93%(896分辨率)
DocVQA
文档图像问答
ANLS 84.77(896分辨率)
通用视觉理解
图像字幕生成
为图像生成多语言描述
COCO数据集CIDEr 144.60(448分辨率)
视觉问答
回答关于图像内容的问题
VQAv2测试准确率85.64%
专业领域
科学图表理解
解析科学图表内容
SciCap测试CIDEr 181.49
遥感图像分析
回答关于遥感图像的问题
RSVQA-HR测试准确率92.79%