P

Paligemma2 28b Mix 224

由 google 开发
PaliGemma 2是Google推出的升级版视觉语言模型,结合Gemma 2和SigLIP视觉模型能力,支持多语言图像文本交互任务。
下载量 2,050
发布时间 : 11/22/2024
模型介绍
内容详情
替代品

模型简介

基于Gemma 2和SigLIP构建的多模态模型,擅长图像描述生成、视觉问答、目标检测等视觉语言任务,提供mix(直接使用)和pt(微调用)两种版本。

模型特点

多任务统一框架
通过特定提示模板支持描述生成、OCR、问答等8类任务,无需修改模型架构
开放组件集成
融合SigLIP视觉模型和Gemma 2语言模型的优势,实现高性能多模态理解
负责任数据过滤
训练数据经过色情内容、毒性文本、个人信息等多层安全过滤

模型能力

图像短描述生成
图像详细描述生成
多语言光学字符识别
视觉问答
问题生成
目标检测
实例分割
多语言文本生成

使用案例

内容理解
自动图像标注
为图像生成高质量描述文本
支持短描述(类似COCO)和长描述两种模式
文档数字化
从图像中提取印刷/手写文本
通过'ocr'指令实现多语言文字识别
智能交互
视觉问答系统
回答关于图像内容的自然语言问题
支持'answer {lang} {question}'指令格式
教育辅助工具
根据图像内容自动生成测验问题
通过'question {lang} {answer}'反向生成问题