P

Paligemma 3b Ft Science Qa 224

由 google 开发
PaliGemma是一款多功能轻量级视觉语言模型(VLM),支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
下载量 113
发布时间 : 5/12/2024

模型简介

PaliGemma是一款基于开放组件构建的视觉语言模型,结合了SigLIP视觉模型和Gemma语言模型,支持多语言处理,适用于图像字幕、视觉问答、文本阅读、目标检测和分割等任务。

模型特点

多功能性
支持多种视觉语言任务,如问答、字幕生成、分割等。
多语言支持
能够处理多种语言的输入和输出。
轻量级设计
基于开放组件构建,易于使用和部署。
高性能微调
在特定任务上进行微调时表现最佳。

模型能力

图像字幕生成
视觉问答
目标检测
目标分割
多语言文本生成

使用案例

图像处理
图像字幕生成
为图像生成描述性字幕,支持多种语言。
生成准确且多语言的图像描述。
目标检测
检测图像中的目标并返回其边界框坐标。
高精度的目标定位。
问答系统
视觉问答
回答关于图像内容的自然语言问题。
准确回答与图像相关的问题。
AIbase
智启未来,您的人工智能解决方案智库
简体中文