P

Paligemma 3b Pt 224

由 google 开发
PaliGemma是一款多功能轻量级视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,能同时处理图像和文本输入并生成文本输出。
下载量 38.40k
发布时间 : 5/12/2024
模型介绍
内容详情
替代品

模型简介

PaliGemma是一款30亿参数的视觉语言模型,专为各类视觉语言任务设计,包括图像描述、视觉问答、文本阅读、目标检测和分割等。

模型特点

轻量级设计
仅30亿参数,适合资源有限环境部署
多任务支持
通过任务前缀配置可支持问答、检测、分割等多种视觉语言任务
多语言能力
支持多种语言的文本生成和理解
开放组件
基于SigLIP和Gemma等开放模型构建

模型能力

图像描述生成
视觉问答
文本阅读
目标检测
图像分割
多语言文本生成

使用案例

辅助技术
盲人视觉辅助
为视障人士描述图像内容
内容审核
图像内容分析
自动识别和描述图像中的对象和场景
教育
多语言学习辅助
生成不同语言的图像描述辅助语言学习