许可证: mit
语言:
- 阿拉伯语
- 卡纳达语
- 阿拉伯语
- 格鲁吉亚语
- 南非荷兰语
- 哈萨克语
- 阿姆哈拉语
- 高棉语
- 阿拉伯语
- 吉尔吉斯语
- 阿拉伯语
- 韩语
- 阿萨姆语
- 老挝语
- 阿塞拜疆语
- 马拉雅拉姆语
- 阿塞拜疆语
- 马拉地语
- 白俄罗斯语
- 马其顿语
- 孟加拉语
- 缅甸语
- 波斯尼亚语
- 荷兰语
- 保加利亚语
- 加泰罗尼亚语
- 挪威语
- 捷克语
- 尼泊尔语
- 库尔德语
- 波兰语
- 威尔士语
- 葡萄牙语
- 丹麦语
- 罗马尼亚语
- 德语
- 俄语
- 希腊语
- 梵语
- 英语
- 僧伽罗语
- 世界语
- 斯洛伐克语
- 爱沙尼亚语
- 斯洛文尼亚语
- 巴斯克语
- 信德语
- 芬兰语
- 索马里语
- 法语
- 西班牙语
- 苏格兰盖尔语
- 塞尔维亚语
- 爱尔兰语
- 巽他语
- 加利西亚语
- 瑞典语
- 古吉拉特语
- 斯瓦希里语
- 豪萨语
- 泰米尔语
- 希伯来语
- 泰卢固语
- 印地语
- 泰语
- 克罗地亚语
- 土耳其语
- 匈牙利语
- 维吾尔语
- 亚美尼亚语
- 乌克兰语
- 印尼语
- 乌尔都语
- 冰岛语
- 越南语
- 意大利语
- 科萨语
- 爪哇语
- 中文
- 日语
任务标签: 零样本图像分类
标签:
- siglip
- clip
- mexma
新版本: visheratin/mexma-siglip2
模型概述
MEXMA-SigLIP 是一个结合了 MEXMA 多语言文本编码器和 SigLIP 模型图像编码器的模型。这使得我们能够为80种语言获得一个高性能的CLIP模型。
MEXMA-SigLIP 在 Crossmodal-3600 数据集上,在商业友好型模型中取得了最先进的性能。
使用方法
from transformers import AutoModel, AutoTokenizer, AutoImageProcessor
from PIL import Image
import requests
import torch
model = AutoModel.from_pretrained("visheratin/mexma-siglip", torch_dtype=torch.bfloat16, trust_remote_code=True, optimized=True).to("cuda")
tokenizer = AutoTokenizer.from_pretrained("visheratin/mexma-siglip")
processor = AutoImageProcessor.from_pretrained("visheratin/mexma-siglip")
img = Image.open(requests.get("https://static.independent.co.uk/s3fs-public/thumbnails/image/2014/03/25/12/eiffel.jpg", stream=True).raw)
img = processor(images=img, return_tensors="pt")["pixel_values"]
img = img.to(torch.bfloat16).to("cuda")
with torch.inference_mode():
text = tokenizer(["кошка", "a dog", "एफिल टॉवर"], return_tensors="pt", padding=True).to("cuda")
image_logits, text_logits = model.get_logits(text["input_ids"], text["attention_mask"], img)
probs = image_logits.softmax(dim=-1)
print(probs)
致谢
感谢 ML Collective 和 Lambda 提供训练模型所需的计算资源。