P

Paligemma2 10b Ft Docci 448

由 google 开发
PaliGemma 2是Google推出的多功能视觉语言模型(VLM),结合图像和文本处理能力,支持多语言和多任务处理。
下载量 2,207
发布时间 : 11/21/2024

模型简介

PaliGemma 2是基于Gemma 2架构的视觉语言模型,能够同时处理图像和文本输入,生成文本输出。该模型在多种视觉语言任务上表现出色,如图像描述、视觉问答、文本阅读等。

模型特点

多模态处理
能够同时处理图像和文本输入,生成文本输出
多语言支持
支持多种语言,适用于不同地区的用户
高性能微调
在多种视觉语言任务上具有出色的微调性能
高分辨率支持
支持448*448高分辨率输入图像处理

模型能力

图像描述生成
视觉问答
目标检测
目标分割
文本阅读
多语言处理

使用案例

图像理解
图像描述生成
为输入图像生成详细的文字描述
在COCO-35L数据集上英语描述得分142.4
视觉问答
回答关于图像内容的自然语言问题
在VQAv2数据集上准确率85.8%
文档处理
文档问答
从文档图像中提取信息回答问题
在DocVQA数据集上准确率76.6%
表格理解
解析和理解表格内容
在FinTabNet数据集上TEDS得分98.94
医疗影像
医学影像报告生成
根据医学影像生成诊断报告
在MIMIC-CXR数据集上Rouge-L得分32.41%
AIbase
智启未来,您的人工智能解决方案智库
简体中文