T

Taiyi CLIP RoBERTa 102M ViT L Chinese

由 IDEA-CCNL 开发
首个开源的中文CLIP模型,基于1.23亿图文对进行预训练,文本编码器采用RoBERTa-base架构。
下载量 668
发布时间 : 9/27/2022
模型介绍
内容详情
替代品

模型简介

中文视觉-语言联合表征模型,支持图像分类和文本-图像检索任务。

模型特点

中文多模态支持
首个专门针对中文优化的CLIP模型,支持中文文本与图像的联合表征
高效训练策略
采用冻结视觉编码器参数、仅微调语言编码器的策略,提升训练效率与稳定性
大规模预训练数据
整合悟空数据集(1亿样本)与Zero数据集(2300万样本)进行预训练

模型能力

零样本图像分类
文本-图像检索
多模态特征提取

使用案例

图像理解
零样本图像分类
无需微调即可对图像进行分类
在ImageNet1k-CN上达到55.04% Top1准确率
跨模态检索
文本到图像检索
根据中文文本描述检索相关图像
在Flickr30k-CNA测试集上达到58.32% Top1准确率