nllb-clip-large-siglip开源多语言视觉语言模型

首页

Nllb Clip Large Siglip

由 visheratin 开发

NLLB-CLIP-SigLIP是一个结合了NLLB模型的文本编码器和SigLIP模型的图像编码器的多语言视觉语言模型，支持201种语言。

文本生成图像 #多语言零样本分类 #跨模态检索 #低资源语言支持

下载量 384

发布时间 : 11/14/2023

模型简介

该模型结合了NLLB的文本编码能力和SigLIP的图像编码能力，特别擅长低资源语言的跨模态任务，在Crossmodal-3600数据集上表现优异。

模型特点

多语言支持

支持Flores-200的201种语言，包括许多低资源语言

跨模态能力

结合文本和图像编码能力，擅长图像-文本匹配任务

低资源语言表现

在低资源语言上达到最先进水平

模型能力

多语言图像分类

跨语言图像检索

零样本学习

使用案例

多语言内容理解

多语言图像分类

使用不同语言的文本标签对图像进行分类

在Crossmodal-3600数据集上表现优异

跨语言图像检索

使用不同语言查询检索相关图像

支持201种语言的查询

🚀 NLLB - CLIP - SigLIP模型

NLLB - CLIP - SigLIP模型结合了NLLB模型的文本编码器和SigLIP模型的图像编码器，能将模型能力拓展至Flores - 200中的201种语言。该模型在Crossmodal - 3600数据集上达到了最先进水平，尤其在低资源语言上表现出色。你可以在论文中了解该模型的更多细节。

🚀 快速开始

本模型集成于OpenCLIP中，你可以像使用其他模型一样使用它。点击下方按钮在Colab中打开示例：

📦 安装指南

首先，你需要安装open_clip_torch库：

!pip install -U open_clip_torch

💻 使用示例

基础用法

from open_clip import create_model_from_pretrained, get_tokenizer
from PIL import Image
import requests
import torch

model, transform = create_model_from_pretrained("nllb-clip-large-siglip", "v1", device="cuda")

tokenizer = get_tokenizer("nllb-clip-large-siglip")

class_options = ["бабочка", "butterfly", "kat"]
class_langs = ["rus_Cyrl", "eng_Latn", "afr_Latn"]

text_inputs = []
for i in range(len(class_options)):
    tokenizer.set_language(class_langs[i])
    text_inputs.append(tokenizer(class_options[i]))
text_inputs = torch.stack(text_inputs).squeeze(1).to("cuda")

image_path = "https://huggingface.co/spaces/jjourney1125/swin2sr/resolve/main/samples/butterfly.jpg"
image = Image.open(requests.get(image_path, stream=True).raw)

image_inputs = transform(image).unsqueeze(0).to("cuda")

with torch.inference_mode():
    logits_per_image, logits_per_text = model.get_logits(image_inputs, text_inputs)

print(logits_per_image.softmax(dim=-1))