P

Paligemma2 10b Pt 448

由 google 开发
PaliGemma 2是Google推出的升级版视觉语言模型(VLM),融合Gemma 2能力,支持图像和文本输入生成文本输出。
下载量 282
发布时间 : 11/21/2024
模型介绍
内容详情
替代品

模型简介

基于SigLIP视觉模型和Gemma 2语言模型构建的多模态模型,专为视觉语言任务优化,支持多语言和多种下游任务微调。

模型特点

多模态理解
同时处理图像和文本输入,实现跨模态理解与生成
多任务适配
支持图像描述、视觉问答、文本阅读、目标检测和分割等多种任务
高分辨率处理
支持448×448像素图像输入,提升细粒度视觉理解能力
负责任AI
训练数据经过严格安全过滤,移除不当内容和隐私信息

模型能力

图像描述生成
视觉问答
多语言文本生成
目标检测
图像分割
短视频理解

使用案例

内容理解
自动图像标注
为图像生成描述性文本标签
在COCO-35L英文测试集上CIDEr得分142.4
视觉问答系统
回答关于图像内容的自然语言问题
在AOKVQA验证集上准确率70.8%
文档处理
文档视觉问答
理解扫描文档中的文字和布局
在DocVQA验证集上准确率76.6%