P

Paligemma 3b Ft Vqav2 448

由 google 开发
PaliGemma是Google开发的轻量级视觉语言模型,结合图像理解和文本生成能力,支持多语言任务。
下载量 121
发布时间 : 5/12/2024
模型介绍
内容详情
替代品

模型简介

基于448*448输入图像在VQAv2数据集上微调的3B参数视觉语言模型,接受图像和文本输入并生成文本输出,适用于视觉问答、图像描述等任务。

模型特点

多模态理解
同时处理图像和文本输入,实现跨模态语义理解
轻量级架构
仅30亿参数的紧凑设计,适合研究场景部署
任务前缀配置
通过'caption'等任务前缀灵活切换不同视觉语言任务
多精度支持
提供float32/bfloat16/float16及4-bit/8-bit量化版本

模型能力

视觉问答
多语言图像描述
目标检测
图像分割
跨模态推理

使用案例

视觉理解
多语言图像描述
生成西班牙语等语言的图像描述
示例输出:'Un auto azul estacionado frente a un edificio.'
视觉问答
回答关于图像内容的自然语言问题
在VQAv2数据集上微调
工业应用
目标检测
通过'detect'前缀识别图像中的物体位置
输出目标框坐标列表
文档分析
理解包含文字的图像内容