clip - vit - base - patch16开源模型 - 支持图像与文本跨模态理解，免费可用

首页

Clip Vit Base Patch16

由 Xenova 开发

OpenAI开源的CLIP模型，基于Vision Transformer架构，支持图像与文本的跨模态理解

文本生成图像

Transformers

#零样本图像分类 #多模态嵌入 #跨模态检索

下载量 32.99k

发布时间 : 5/19/2023

模型简介

基于Vision Transformer架构的多模态模型，能够同时理解图像和文本内容，实现零样本图像分类、跨模态检索等任务

模型特点

零样本学习能力

无需特定任务训练即可直接执行图像分类任务

跨模态理解

可同时处理视觉和文本信息，计算图像-文本相似度

高效视觉编码

采用16x16分块的Vision Transformer架构处理图像输入

模型能力

零样本图像分类

图像文本匹配

跨模态嵌入计算

视觉内容理解

文本内容理解

使用案例

内容检索

图文匹配搜索

根据文本描述搜索相关图像

智能分类

动态图像分类

无需预训练即可对图像进行自定义类别分类

示例中老虎图像分类准确率达99.9%

🚀 CLIP-ViT-Base-Patch16与Transformers.js适配项目

本项目将 openai/clip-vit-base-patch16 模型转换为ONNX权重，以适配Transformers.js库，方便在Web环境中使用。

🚀 快速开始

安装依赖

如果你还没有安装 Transformers.js JavaScript库，可以使用以下命令从 NPM 进行安装：

npm i @xenova/transformers

💻 使用示例

基础用法

使用`pipeline` API进行零样本图像分类

const classifier = await pipeline('zero-shot-image-classification', 'Xenova/clip-vit-base-patch16');
const url = 'https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/tiger.jpg';
const output = await classifier(url, ['tiger', 'horse', 'dog']);
// [
//   { score: 0.9993917942047119, label: 'tiger' },
//   { score: 0.0003519294841680676, label: 'horse' },
//   { score: 0.0002562698791734874, label: 'dog' }
// ]

高级用法

使用`CLIPModel`进行零样本图像分类

import { AutoTokenizer, AutoProcessor, CLIPModel, RawImage } from '@xenova/transformers';

// 加载分词器、处理器和模型
const tokenizer = await AutoTokenizer.from_pretrained('Xenova/clip-vit-base-patch16');
const processor = await AutoProcessor.from_pretrained('Xenova/clip-vit-base-patch16');
const model = await CLIPModel.from_pretrained('Xenova/clip-vit-base-patch16');

// 进行分词
const texts = ['a photo of a car', 'a photo of a football match'];
const text_inputs = tokenizer(texts, { padding: true, truncation: true });

// 读取图像并进行处理
const image = await RawImage.read('https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/football-match.jpg');
const image_inputs = await processor(image);

// 使用文本和像素输入运行模型
const output = await model({ ...text_inputs, ...image_inputs });
// {
//   logits_per_image: Tensor {
//     dims: [ 1, 2 ],
//     data: Float32Array(2) [ 18.579734802246094, 24.31830596923828 ],
//   },
//   logits_per_text: Tensor {
//     dims: [ 2, 1 ],
//     data: Float32Array(2) [ 18.579734802246094, 24.31830596923828 ],
//   },
//   text_embeds: Tensor {
//     dims: [ 2, 512 ],
//     data: Float32Array(1024) [ ... ],
//   },
//   image_embeds: Tensor {
//     dims: [ 1, 512 ],
//     data: Float32Array(512) [ ... ],
//   }
// }

使用`CLIPTextModelWithProjection`计算文本嵌入

import { AutoTokenizer, CLIPTextModelWithProjection } from '@xenova/transformers';

// 加载分词器和文本模型
const tokenizer = await AutoTokenizer.from_pretrained('Xenova/clip-vit-base-patch16');
const text_model = await CLIPTextModelWithProjection.from_pretrained('Xenova/clip-vit-base-patch16');

// 进行分词
const texts = ['a photo of a car', 'a photo of a football match'];
const text_inputs = tokenizer(texts, { padding: true, truncation: true });

// 计算嵌入
const { text_embeds } = await text_model(text_inputs);
// Tensor {
//   dims: [ 2, 512 ],
//   type: 'float32',
//   data: Float32Array(1024) [ ... ],
//   size: 1024
// }

使用`CLIPVisionModelWithProjection`计算视觉嵌入

import { AutoProcessor, CLIPVisionModelWithProjection, RawImage } from '@xenova/transformers';

// 加载处理器和视觉模型
const processor = await AutoProcessor.from_pretrained('Xenova/clip-vit-base-patch16');
const vision_model = await CLIPVisionModelWithProjection.from_pretrained('Xenova/clip-vit-base-patch16');

// 读取图像并进行处理
const image = await RawImage.read('https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/football-match.jpg');
const image_inputs = await processor(image);

// 计算嵌入
const { image_embeds } = await vision_model(image_inputs);
// Tensor {
//   dims: [ 1, 512 ],
//   type: 'float32',
//   data: Float32Array(512) [ ... ],
//   size: 512
// }