P

Paligemma 3b Ft Science Qa 448

由 google 开发
PaliGemma是由Google开发的30亿参数轻量级视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入生成文本输出。
下载量 15
发布时间 : 5/13/2024
模型介绍
内容详情
替代品

模型简介

多功能视觉语言模型,专为图像描述、视觉问答、文本阅读、目标检测与分割等任务设计,支持多语言处理。

模型特点

轻量级设计
仅30亿参数规模,适合资源受限场景部署
多任务适配
通过任务前缀(如'detect'或'segment')可配置不同视觉语言任务
多分辨率支持
提供224/448/896等多种输入分辨率版本,适应不同精度需求
负责任训练
训练数据经过严格安全过滤,移除色情、毒性及个人信息内容

模型能力

图像描述生成
视觉问答
文本阅读
目标检测
图像分割
多语言处理

使用案例

教育
科学问答系统
基于ScienceQA数据集的科学问题解答
在ScienceQA基准上微调表现优异
辅助技术
视障辅助
为视障用户描述图像内容
内容审核
图像安全分析
检测图像中的敏感或不适当内容