P

Paligemma2 28b Pt 896

由 google 开发
PaliGemma 2是Google推出的视觉语言模型(VLM),融合Gemma 2语言模型和SigLIP视觉模型能力,支持图像和文本输入生成文本输出。
下载量 116
发布时间 : 11/22/2024
模型介绍
内容详情
替代品

模型简介

基于开放组件的多功能视觉语言模型,支持图像描述、视觉问答、文本阅读、目标检测和分割等多种视觉语言任务。

模型特点

多模态处理能力
同时处理图像和文本输入,生成连贯的文本输出
高分辨率支持
支持896×896高分辨率图像输入,提升细节识别能力
多任务适应性
可通过微调适应多种视觉语言任务,如图像描述、视觉问答等
负责任AI设计
训练数据经过严格过滤,减少偏见和有害内容

模型能力

图像描述生成
视觉问答
文本阅读
目标检测
图像分割
多语言处理

使用案例

内容理解与生成
自动图像标注
为图像生成详细描述文本
在COCO-35L数据集上英语描述得分142.4
视觉问答系统
回答关于图像内容的自然语言问题
在VQAv2数据集上达到85.8分
文档处理
文档视觉问答
从扫描文档中提取信息并回答问题
在DocVQA数据集上达到76.1分
表格理解
解析表格图像并提取结构化数据
在FinTabNet数据集上TEDS得分98.94