T

Taiyi CLIP Roberta 102M Chinese

由 IDEA-CCNL 开发
首个开源的中文CLIP模型,基于1.23亿图文对进行预训练,文本编码器采用RoBERTa-base架构。
下载量 558
发布时间 : 7/9/2022
模型介绍
内容详情
替代品

模型简介

该模型是一个中文视觉-语言表征模型,能够理解图像和文本之间的关系,支持零样本图像分类和图文检索任务。

模型特点

中文支持
首个专门针对中文优化的CLIP模型,文本编码器采用中文RoBERTa-wwm架构
大规模预训练
基于1.23亿中文图文对进行预训练,包含悟空数据集和360Zero数据集
高效训练策略
冻结视觉编码器参数,仅微调语言编码器,提高训练效率和稳定性

模型能力

零样本图像分类
图文特征提取
跨模态检索
图像-文本相似度计算

使用案例

图像理解
零样本图像分类
无需微调即可对图像进行分类
在ImageNet1k中文版上Top1准确率42.85%
信息检索
图文检索
根据文本搜索相关图像或根据图像搜索相关文本
在Flickr30k中文测试集上Top1准确率46.32%