开源SigLIP模型 - 免费部署用于零样本图像分类任务！

首页

Siglip Base Patch16 224

由 Xenova 开发

SigLIP是一种基于视觉-语言预训练的模型，适用于零样本图像分类任务。

文本生成图像

Transformers

#零样本图像分类 #多模态嵌入 #ONNX兼容

下载量 182

发布时间 : 12/23/2023

模型简介

SigLIP是一种结合视觉和语言信息的预训练模型，主要用于零样本图像分类任务，能够根据文本描述对图像进行分类。

模型特点

零样本图像分类

无需训练即可根据文本描述对图像进行分类。

视觉-语言预训练

结合视觉和语言信息进行预训练，提升模型的多模态理解能力。

ONNX兼容

支持ONNX格式，便于在Web端部署和使用。

模型能力

零样本图像分类

文本嵌入向量计算

视觉嵌入向量计算

使用案例

图像分类

动物识别

识别图像中的动物类型，如猫、狗等。

能够准确识别图像中的动物类型。

多模态应用

图像-文本匹配

将图像和文本描述进行匹配，用于检索或分类。

能够有效匹配图像和文本描述。

🚀 Siglip-base-patch16-224模型适配Transformers.js

本项目将 google/siglip-base-patch16-224 模型转换为ONNX权重，以适配 Transformers.js 库，可用于零样本图像分类等任务。

🚀 快速开始

本模型基于 google/siglip-base-patch16-224，使用 Transformers.js 库实现零样本图像分类。

📦 安装指南

如果你还没有安装 Transformers.js JavaScript 库，可以使用以下命令从 NPM 进行安装：

npm i @xenova/transformers

💻 使用示例

基础用法

零样本图像分类

使用 Xenova/siglip-base-patch16-224 进行零样本图像分类：

import { pipeline } from '@xenova/transformers';

const classifier = await pipeline('zero-shot-image-classification', 'Xenova/siglip-base-patch16-224');
const url = 'http://images.cocodataset.org/val2017/000000039769.jpg';
const output = await classifier(url, ['2 cats', '2 dogs'], {
    hypothesis_template: 'a photo of {}',
});
console.log(output);
// [
//   { score: 0.16770583391189575, label: '2 cats' },
//   { score: 0.000022096000975579955, label: '2 dogs' }
// ]

高级用法

计算文本嵌入

使用 SiglipTextModel 计算文本嵌入：

import { AutoTokenizer, SiglipTextModel } from '@xenova/transformers';

// 加载分词器和文本模型
const tokenizer = await AutoTokenizer.from_pretrained('Xenova/siglip-base-patch16-224');
const text_model = await SiglipTextModel.from_pretrained('Xenova/siglip-base-patch16-224');

// 进行分词
const texts = ['a photo of 2 cats', 'a photo of 2 dogs'];
const text_inputs = tokenizer(texts, { padding: 'max_length', truncation: true });

// 计算嵌入
const { pooler_output } = await text_model(text_inputs);
// Tensor {
//   dims: [ 2, 768 ],
//   type: 'float32',
//   data: Float32Array(1536) [ ... ],
//   size: 1536
// }

计算视觉嵌入

使用 SiglipVisionModel 计算视觉嵌入：

import { AutoProcessor, SiglipVisionModel, RawImage} from '@xenova/transformers';

// 加载处理器和视觉模型
const processor = await AutoProcessor.from_pretrained('Xenova/siglip-base-patch16-224');
const vision_model = await SiglipVisionModel.from_pretrained('Xenova/siglip-base-patch16-224');

// 读取图像并进行处理
const image = await RawImage.read('https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/football-match.jpg');
const image_inputs = await processor(image);

// 计算嵌入
const { pooler_output } = await vision_model(image_inputs);
// Tensor {
//   dims: [ 1, 768 ],
//   type: 'float32',
//   data: Float32Array(768) [ ... ],
//   size: 768
// }