P

Paligemma2 3b Pt 896

由 google 开发
PaliGemma 2是一款多模态视觉语言模型,结合图像和文本输入生成文本输出,支持多语言,适用于多种视觉语言任务。
下载量 2,536
发布时间 : 11/21/2024

模型简介

PaliGemma 2是基于Gemma 2和SigLIP构建的视觉语言模型,支持图像和文本输入,生成文本输出,适用于图像字幕、视觉问答、文本阅读等多种任务。

模型特点

多模态输入输出
接受图像和文本作为输入,生成文本输出,支持多语言。
广泛的任务支持
适用于图像和短视频字幕、视觉问答、文本阅读、目标检测和目标分割等多种视觉语言任务。
高性能微调
在多种视觉语言任务上具有领先的微调性能。
负责任的数据过滤
对预训练数据进行了色情、毒性、个人信息等多重过滤,确保模型安全和负责任。

模型能力

图像字幕生成
视觉问答
目标检测
目标分割
多语言文本生成
图像理解
文本阅读

使用案例

图像和视频理解
图像字幕生成
为图像生成描述性字幕。
在COCO-35L数据集上,英语字幕得分142.4(3B模型)
视觉问答
回答关于图像内容的问题。
在VQAv2数据集上达到85.8%准确率(28B模型)
教育
视觉学习辅助
帮助学生理解图像中的信息。
在ScienceQA数据集上达到98.6%准确率(28B模型)
文档处理
表格理解
解析和理解文档中的表格内容。
在FinTabNet数据集上TEDS得分98.94(3B模型)
AIbase
智启未来,您的人工智能解决方案智库
简体中文