clip-italian开源模型 - 免费实现意大利语对比语言与图像预训练应用

首页

Clip Italian

由 clip-italian 开发

首个针对意大利语的对比语言-图像预训练模型，基于意大利语BERT和ViT架构，仅用140万样本微调实现竞争力表现

文本生成图像其他开源协议:Gpl-3.0 #意语图文检索 #零样本分类 #多模态对比学习

下载量 960

发布时间 : 3/2/2022

模型简介

该模型通过对比学习实现意大利语文本与图像的跨模态理解，支持图像检索和零样本分类等任务

模型特点

小样本高效训练

仅使用140万训练样本即达到竞争性表现，远低于原始CLIP的4亿数据需求

跨模态理解

通过对比学习实现意大利语文本与图像的语义对齐

零样本迁移能力

无需微调即可直接应用于下游视觉任务

多源数据融合

整合WIT、MSCOCO-IT等4个意大利语视觉-语言数据集

模型能力

意大利语图像描述理解

基于文本的图像检索

零样本图像分类

跨模态特征提取

使用案例

多媒体检索

意大利语图像搜索

通过自然语言描述检索相关图像

在MSCOCO-IT验证集上MRR@10达0.5204

智能分类

零样本图像分类

无需训练直接分类未见过的图像类别

ImageNet上Top-5准确率43.69%

🚀 意大利语CLIP

通过一些技巧，我们仅使用140万个训练样本就微调出了一个有竞争力的意大利语CLIP模型。该模型基于dbmdz提供的意大利语BERT模型和OpenAI的视觉变换器构建。

🚀 快速开始

你想立即测试我们的模型吗？我们为你提供了便捷途径！你只需前往我们的演示应用。该演示还包含了项目的所有详细信息，从训练技巧到我们最令人印象深刻的成果等等！

✨ 主要特性

仅使用140万个训练样本就微调出有竞争力的意大利语CLIP模型。
基于意大利语BERT模型和OpenAI 视觉变换器构建。

📚 详细文档

论文

Contrastive Language-Image Pre-training for the Italian Language

训练数据

我们考虑了四个主要的数据来源：

WIT 是一个从维基百科收集的图像 - 文本数据集（见 Srinivasan et al., 2021）。
MSCOCO-IT。这个图像 - 文本数据集来自 Scaiella et al., 2019 的工作。
Conceptual Captions。这个图像 - 文本数据集来自 Sharma et al., 2018 的工作。
La Foto del Giorno。这个图像 - 文本数据集是从意大利著名的在线报纸 Il Post 收集的。

我们使用了更好的数据增强、战略性的训练选择（我们的数据比原始CLIP论文少得多）以及冻结主干的预训练。有关所有详细信息，请参考我们的演示。

实验

定量评估

为了更好地了解我们的clip - italian模型的性能，我们进行了实验评估。由于这是第一个基于意大利语的clip模型，我们使用多语言CLIP模型作为比较基线。

mCLIP

多语言CLIP（以下简称mCLIP）是由 Nils Reimers 在他的 sentence - transformer 库中引入的模型。mCLIP基于一个通过多语言知识蒸馏创建的多语言编码器（见 Reimers et al., 2020）。

任务

我们选择了两个不同的任务：

图像检索
零样本分类

可重复性

这两个实验都应该很容易复现，我们分享了用于计算两个结果的两个Colab笔记本：

图像检索

这个实验是针对MSCOCO - IT验证集（我们在训练中未使用该验证集）进行的。给定一个文本描述作为输入，我们在MSCOCO - IT验证集中搜索最相似的图像。我们使用MRR@K作为评估指标。

MRR	CLIP - 意大利语	mCLIP
MRR@1	0.3797	0.2874
MRR@5	0.5039	0.3957
MRR@10	0.5204	0.4129

确实，我们在训练中使用了MSCOCO - IT，这可能会给我们带来优势。然而，原始的CLIP模型在4亿张图像上进行了训练（其中一些可能来自MSCOCO）。

零样本图像分类

这个实验复制了OpenAI在ImageNet上进行的零样本图像分类实验。为此，我们使用DeepL翻译了ImageNet中的图像标签。我们在不同级别计算准确率来评估模型。

准确率	CLIP - 意大利语	mCLIP
准确率@1	22.11	20.15
准确率@5	43.69	36.57
准确率@10	52.55	42.91
准确率@100	81.08	67.11

我们的结果证实，CLIP - 意大利语模型非常有竞争力，在我们测试的两个不同任务上都击败了mCLIP。然而，请注意，我们的结果低于原始OpenAI论文中显示的结果（见 Radford et al., 2021）。不过，考虑到我们的结果与mCLIP获得的结果一致，我们认为翻译后的图像标签可能对最终得分有影响。