T

Taiyi CLIP Roberta Large 326M Chinese

由 IDEA-CCNL 开发
首个开源的中文CLIP模型,基于1.23亿图文对预训练,支持中文图文特征提取和零样本分类
下载量 10.37k
发布时间 : 7/19/2022
模型介绍
内容详情
替代品

模型简介

中文多模态CLIP模型,采用RoBERTa-large作为文本编码器,ViT-L-14作为视觉编码器,专为中文图文任务设计

模型特点

中文多模态支持
首个专门针对中文优化的CLIP模型,支持中文文本与图像的联合表征学习
大规模预训练
基于1.23亿中文图文对(悟空+Zero数据集)进行预训练,学习丰富的跨模态关联
稳定训练策略
采用冻结视觉编码器、仅微调文本编码器的策略,提升训练稳定性

模型能力

零样本图像分类
图文特征提取
跨模态检索
图文相似度计算

使用案例

内容检索
中文图像搜索
使用中文文本查询检索相关图像
在Flickr30k中文测试集上Top1准确率54.36%
内容分类
零样本图像分类
无需微调直接对图像进行分类
ImageNet1k中文版Top1准确率53.05%