许可证: mit
标签:
- 视觉
- 语言
- 时尚
- 电子商务
库名称: transformers
语言:
- 英语
小部件示例:
- 图片来源: https://cdn-images.farfetch-contents.com/19/76/05/56/19760556_44221665_1000.jpg
候选标签: 黑色鞋子, 红色鞋子, 一只猫
示例标题: 黑色鞋子

模型卡片: Fashion CLIP
免责声明: 本模型卡片改编自此处的模型卡片。
模型详情
更新(2023年10月3日): 我们已更新模型! 我们发现laion/CLIP-ViT-B-32-laion2B-s34B-b79K检查点(感谢Bin!)在时尚领域表现优于原始OpenAI CLIP。因此我们基于相同架构微调了新版(且更优!)的FashionCLIP(以下简称FashionCLIP 2.0)。我们推测laion/CLIP-ViT-B-32-laion2B-s34B-b79K
的性能提升源于其更大的训练数据量(5倍于OpenAI CLIP数据)。但我们的论文结论保持不变——在我们的时尚数据集上微调laion/CLIP
提升了所有基准测试的零样本性能。参见下方模型加权宏F1分数对比表。
模型 |
FMNIST |
KAGL |
DEEP |
OpenAI CLIP |
0.66 |
0.63 |
0.45 |
FashionCLIP |
0.74 |
0.67 |
0.48 |
Laion CLIP |
0.78 |
0.71 |
0.58 |
FashionCLIP 2.0 |
0.83 |
0.73 |
0.62 |
FashionCLIP是基于CLIP开发的模型,旨在为时尚概念生成通用产品表征。利用OpenAI发布的预训练检查点(ViT-B/32),我们在包含80万件产品的高质量时尚数据集上训练FashionCLIP,研究领域特定微调是否足以产生可零样本迁移到全新数据集和任务的产品表征。FashionCLIP并非为模型部署而开发——实际部署前,研究人员需仔细评估其在特定应用场景中的能力。
模型日期
2023年3月
模型类型
该模型使用ViT-B/32 Transformer架构作为图像编码器,使用掩码自注意力Transformer作为文本编码器。这些编码器从预训练检查点开始,通过在包含80万产品的时尚数据集上最大化(图像,文本)对的相似性进行对比损失训练。
相关文档
数据
模型训练使用的(图像,文本)对来自Farfetch数据集[^1 待官方发布],这个英语数据集包含超过80万时尚产品,涵盖3000多个品牌和数十种商品类型。编码使用的图像是标准产品图——纯白背景下的单品照片,不含人物。文本是Farfetch数据集中_亮点_(如"条纹"、"长袖"、"Armani")和_简短描述_("80年代风格T恤")的拼接。
局限性、偏见与公平性
我们承认FashionCLIP存在某些局限性,并预期其继承了原始CLIP模型的某些局限性和偏见。我们不认为微调会显著加剧这些问题:我们注意到使用的时尚数据对性别概念做了明确假设(如"女士蓝色鞋子"),这不可避免地将服装特征与特定人群关联。
研究还表明所用数据带来了特定限制。从文本模态看,由于大多数Farfetch描述较长,我们观察到FashionCLIP在长查询中表现可能优于短查询。从图像模态看,模型对标准产品图(居中、白底)存在偏好。
模型选择(即微调时选择合适的停止标准)仍是开放挑战。我们发现即使使用相对多样的大规模数据集,当需要跨域泛化(即适应不同数据集)时,基于域内验证集(与测试集同分布)损失的选取标准效果欠佳。
引用
@Article{Chia2022,
title="时尚通用概念的对比语言视觉学习",
author="Chia, Patrick John
and Attanasio, Giuseppe
and Bianchi, Federico
and Terragni, Silvia
and Magalh{\~a}es, Ana Rita
and Goncalves, Diogo
and Greco, Ciro
and Tagliabue, Jacopo",
journal="Scientific Reports",
year="2022",
month="11月",
day="08",
volume="12",
number="1",
abstract="在线购物的稳步增长与日益复杂的ML和NLP模型发展同步。虽然大多数用例被转化为专门的监督学习问题,但我们认为从业者将极大受益于通用且可迁移的产品表征。本工作中,我们基于对比学习的最新进展训练FashionCLIP——一个适用于时尚产业的CLIP类模型。通过跨任务、数据集和泛化测试的广泛实验,我们证明了FashionCLIP所学表征的有效性。我们认为,对CLIP等大型预训练模型的适配为行业中特定类型参与者提供了可扩展性和可持续性的新视角。最后,我们详细说明了训练成本和环境影响,并将模型权重和代码作为开源贡献发布给社区。",
issn="2045-2322",
doi="10.1038/s41598-022-23052-9",
url="https://doi.org/10.1038/s41598-022-23052-9"
}