标签:
- clip
- llm-jp-clip
- 日语-clip
库名称: open_clip
流水线标签: 零样本图像分类
许可证:
- apache-2.0
数据集:
- llm-jp/relaion2B-en-research-safe-japanese-translation
语言:
- ja
llm-jp-clip-vit-large-patch14 模型卡
模型详情
基于OpenCLIP框架,在relaion2B-en-research-safe-japanese-translation数据集(ReLAION-5B英文子集的日文翻译版,由gemma-2-9b-it翻译)上训练的日语CLIP模型。
该模型总参数量为4.67亿。
使用方法
安装
$ pip install open_clip_torch
零样本图像分类
import open_clip
model, preprocess = open_clip.create_model_from_pretrained('hf-hub:llm-jp/llm-jp-clip-vit-large-patch14')
tokenizer = open_clip.get_tokenizer('hf-hub:llm-jp/llm-jp-clip-vit-large-patch14')
import torch
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
image = preprocess(image).unsqueeze(0)
text = tokenizer(["猫", "犬", "鳥"])
with torch.no_grad(), torch.cuda.amp.autocast():
image_features = model.encode_image(image)
text_features = model.encode_text(text)
image_features /= image_features.norm(dim=-1, keepdim=True)
text_features /= text_features.norm(dim=-1, keepdim=True)
text_probs = (100.0 * image_features @ text_features.T).softmax(dim=-1)
print("标签概率:", text_probs)
参考:
训练详情
模型架构
- 文本编码器:基于llm-jp-tokenizer的RoBERTa base
- 图像编码器:ViT-L/14
训练数据
本模型使用relaion2B-en-research-safe-japanese-translation数据集训练。由于图像下载成功率70%,实际数据集规模为14.5亿样本,共训练9个周期(总计130亿样本)。
评估
评估代码:https://github.com/llm-jp/clip-eval
表格: 各模型在零样本图像分类和图文检索任务中的表现。粗体表示第一名,_下划线_表示第二名。
许可证
Apache许可证2.0版
训练数据使用gemma-2-9b-it翻译,请遵守Gemma使用条款。根据条款1.1(e)节对"模型衍生品"的定义,本模型不属于"为使其性能与Gemma相似而开发的模型",因此无需继承Gemma许可证。
引用文献
Bibtex格式:
@inproceedings{sugiura-etal-2025-developing,
title = "基于开源大语言模型开发日语CLIP模型:大规模数据集翻译实践",
author = "杉浦, 一纱 和
栗田, 修平 和
小田, 佑介 和
河原, 大輔 和
岡崎, 直明",
editor = "Ebrahimi, Abteen 等",
booktitle = "2025年美洲计算语言学协会国际会议学生研讨会论文集",
month = 4月,
year = "2025",
address = "美国阿尔伯克基",
publisher = "计算语言学协会",
url = "https://aclanthology.org/2025.naacl-srw.15/",
pages = "162--170",
ISBN = "979-8-89176-192-6",
abstract = "CLIP是连接图像与文本的基础模型,被广泛用作众多视觉语言模型的核心组件。然而,缺乏大规模开放的日语图文对数据集严重阻碍了日语视觉语言模型的发展。本研究通过开源大语言模型进行机器翻译,构建了包含15亿样本的日语图文对数据集,并基于该数据集预训练了日语CLIP模型。在七个基准数据集上的评估表明,预训练模型取得了与同规模模型相当的均分成绩,且无需繁琐的数据清洗流程。但结果也显示,在涉及日本文化特性的任务上表现相对欠佳,凸显了翻译方法在文化细微差异捕捉方面的局限性。我们的数据集、模型和代码均已开源。"
}