P

Paligemma 3b Ft Widgetcap 224

由 google 开发
PaliGemma是一款多功能轻量级视觉语言模型,结合图像和文本输入生成文本输出,支持多语言,在多种视觉语言任务中表现出色。
下载量 135
发布时间 : 5/13/2024

模型简介

PaliGemma是一款基于开放组件构建的视觉语言模型,能够处理图像字幕、视觉问答、文本阅读、目标检测和分割等多种任务。

模型特点

多功能性
能够处理多种视觉语言任务,如图像和短视频字幕、视觉问答、文本阅读、目标检测和目标分割。
轻量级
基于开放组件构建,具有高效的性能。
多语言支持
支持多种语言的输入和输出。

模型能力

图像字幕生成
视觉问答
文本阅读
目标检测
目标分割

使用案例

图像理解
图像字幕生成
为图像生成描述性字幕,支持多种语言。
高质量的多语言图像描述
视觉问答
回答关于图像内容的自然语言问题。
准确的问题回答
目标检测与分割
目标检测
检测图像中的目标并返回边界框坐标。
精确的目标定位
目标分割
对图像中的目标进行像素级分割。
精细的目标分割
AIbase
智启未来,您的人工智能解决方案智库
简体中文