P

Paligemma 3b Ft Cococap 224

由 google 开发
PaliGemma是一款多功能轻量级视觉语言模型(VLM),支持多语言输入输出,适用于多种视觉语言任务。
下载量 209
发布时间 : 5/13/2024

模型简介

PaliGemma基于开放组件构建,结合了SigLIP视觉模型和Gemma语言模型,能够处理图像和短视频字幕、视觉问答、文本阅读、目标检测和分割等任务。

模型特点

多功能性
能够处理多种视觉语言任务,如问答、字幕生成、分割等。
多语言支持
支持多种语言的输入和输出。
轻量级设计
模型参数相对较少,便于在不同设备上进行研究和应用。

模型能力

图像字幕生成
视觉问答
文本阅读
目标检测
目标分割

使用案例

多媒体处理
图像字幕生成
为图像或短视频生成多语言字幕。
生成准确描述图像内容的字幕
视觉问答
回答关于图像内容的自然语言问题。
提供准确的问题答案
计算机视觉
目标检测
检测图像中的目标并输出边界框坐标。
精确识别和定位图像中的目标
目标分割
对图像中的目标进行像素级分割。
生成精确的目标分割掩码
AIbase
智启未来,您的人工智能解决方案智库
简体中文