P

Paligemma2 10b Pt 896

由 google 开发
PaliGemma 2是Google推出的视觉语言模型(VLM),融合Gemma 2能力,支持图像和文本输入生成文本输出
下载量 233
发布时间 : 11/21/2024
模型介绍
内容详情
替代品

模型简介

基于SigLIP视觉模型和Gemma 2语言模型构建的多模态模型,擅长图像描述、视觉问答、文本阅读、目标检测和分割等视觉语言任务

模型特点

多模态理解
同时处理图像和文本输入,实现跨模态理解与生成
高分辨率支持
支持896×896高分辨率图像输入,提升细节理解能力
多任务适配
通过微调可适应多种视觉语言任务,包括检测、分割和问答
负责任AI
训练数据经过严格安全过滤,移除不当内容和个人敏感信息

模型能力

图像描述生成
视觉问答
多语言文本生成
目标检测
图像分割
文本阅读
短视频理解

使用案例

内容理解
自动图像标注
为图像生成描述性文本
在COCO-35L数据集上英语描述得分142.4 CIDEr
文档解析
从扫描文档中提取和解释文本
在DocVQA验证集达到76.6准确率
智能交互
视觉问答系统
回答关于图像内容的复杂问题
在AOKVQA多项选择任务达87%准确率
图表理解
解析和解释图表数据
在ChartQA人类标注数据上达66.4准确率