P

Paligemma 3b Ft Nlvr2 448

由 google 开发
PaliGemma是一款多功能且轻量级的视觉语言模型(VLM),支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
下载量 2,350
发布时间 : 5/13/2024

模型简介

PaliGemma基于开放组件构建,如SigLIP视觉模型和Gemma语言模型,专为图像和短视频字幕、视觉问答、文本阅读、目标检测和分割等任务设计,支持多语言。

模型特点

多功能性
能够处理多种视觉语言任务,包括图像和短视频字幕、视觉问答、文本阅读、目标检测和目标分割。
轻量级
基于开放组件构建,具有高效的性能。
多语言支持
支持多种语言的输入和输出。

模型能力

图像字幕生成
视觉问答
文本阅读
目标检测
目标分割

使用案例

图像理解
图像字幕生成
为图像生成描述性字幕,支持多种语言。
生成准确且多样化的图像描述。
视觉问答
回答关于图像内容的自然语言问题。
在GQA数据集上达到65.47%的准确率。
目标检测与分割
目标检测
检测图像中的目标并生成边界框坐标。
在OpenImages数据集上表现优异。
目标分割
对图像中的目标进行像素级分割。
生成精确的分割码字。
AIbase
智启未来,您的人工智能解决方案智库
简体中文