许可证: mit
标签:
- 视觉
- 语言
- 时尚
- 电子商务
库名称: transformers
语言:
- 英语
小部件示例:
- 图片链接: https://cdn-images.farfetch-contents.com/19/76/05/56/19760556_44221665_1000.jpg
候选标签: 黑色鞋子, 红色鞋子, 一只猫
示例标题: 黑色鞋子

模型卡片: Fashion CLIP
免责声明: 本模型卡片改编自此处的模型卡片。
模型详情
更新(2023年10月3日): 我们已更新模型! 我们发现laion/CLIP-ViT-B-32-laion2B-s34B-b79K检查点(感谢Bin!)在时尚领域表现优于原始OpenAI CLIP。因此我们基于相同架构微调了新版(且更优!)的FashionCLIP(以下简称FashionCLIP 2.0)。我们推测laion/CLIP-ViT-B-32-laion2B-s34B-b79K
的性能提升源于训练数据量的增加(5倍于OpenAI CLIP数据)。但我们的论文结论保持不变——在我们的时尚数据集上微调laion/CLIP
提升了所有基准测试的零样本性能。参见下方模型加权宏F1分数对比表。
模型 |
FMNIST |
KAGL |
DEEP |
OpenAI CLIP |
0.66 |
0.63 |
0.45 |
FashionCLIP |
0.74 |
0.67 |
0.48 |
Laion CLIP |
0.78 |
0.71 |
0.58 |
FashionCLIP 2.0 |
0.83 |
0.73 |
0.62 |
FashionCLIP是基于CLIP的模型,旨在为时尚概念生成通用产品表征。依托OpenAI发布的预训练检查点(ViT-B/32),我们在包含80万件产品的高质量时尚数据集上训练FashionCLIP,研究针对特定领域微调的CLIP类模型是否能产生可零样本迁移至全新数据集和任务的产品表征。FashionCLIP并非为模型部署而开发——实际部署前,研究人员需仔细评估其能力与具体应用场景的匹配度。
模型日期
2023年3月
模型类型
该模型采用ViT-B/32 Transformer架构作为图像编码器,使用掩码自注意力Transformer作为文本编码器。这些编码器从预训练检查点开始,通过在包含80万产品的时尚数据集上最大化(图像,文本)对的相似度进行对比损失训练。
相关文档
数据
模型训练使用的(图像,文本)对来自Farfetch数据集[^1 待官方发布],这个英语数据集包含超过80万时尚产品,涵盖3000多个品牌数十种商品类型。编码使用的图像是标准产品图——纯白背景下的单品展示图(无人物)。文本采用Farfetch数据集中_亮点描述_(如"条纹"、"长袖"、"Armani")与_简短描述_("80年代风格T恤")的拼接。
局限性与公平性
我们承认FashionCLIP存在某些局限,并预期其继承了原始CLIP模型的某些局限与偏见。微调并未显著改变这些局限:我们注意到所用时尚数据对性别概念存在显式假设(如"女士蓝色鞋"),这不可避免地将服装特征与特定人群关联。
研究发现数据本身也带来限制。文本方面,由于大多数Farfetch描述较长,FashionCLIP对长查询的表现可能优于短查询。图像方面,模型对标准产品图(居中、白底)存在偏好。
模型选择(即微调时确定适当的停止标准)仍是开放挑战。我们发现,当需要跨域泛化(即适应不同数据集)时,即使使用相对多样的大规模数据,基于同域验证集损失的选取标准效果欠佳。
引用
@Article{Chia2022,
title="对比语言视觉学习在通用时尚概念中的应用",
author="Chia, Patrick John
and Attanasio, Giuseppe
and Bianchi, Federico
and Terragni, Silvia
and Magalh{\~a}es, Ana Rita
and Goncalves, Diogo
and Greco, Ciro
and Tagliabue, Jacopo",
journal="科学报告",
year="2022",
month="11月",
day="08",
volume="12",
number="1",
abstract="线上购物的稳步增长与日益复杂的ML和NLP模型发展同步。虽然多数用例被转化为专项监督学习问题,我们认为从业者将极大受益于通用可迁移的产品表征。本研究基于对比学习最新进展训练FashionCLIP——一个适配时尚产业的CLIP类模型。通过跨任务、数据集和泛化测试的广泛验证,我们证明了FashionCLIP所学表征的有效性。我们认为,对CLIP等大型预训练模型的适配为行业特定参与者提供了可扩展性和可持续性的新视角。最后,我们详述训练成本与环境影响,并开源模型权重和代码以回馈社区。",
issn="2045-2322",
doi="10.1038/s41598-022-23052-9",
url="https://doi.org/10.1038/s41598-022-23052-9"
}