T

Taiyi CLIP RoBERTa 326M ViT H Chinese

由 IDEA-CCNL 开发
首个开源的中文CLIP模型,基于1.23亿图文对进行预训练,文本编码器采用RoBERTa-large架构。
下载量 108
发布时间 : 9/26/2022
模型介绍
内容详情
替代品

模型简介

该模型是一个视觉-语言表征系统,能够进行图像和文本的联合特征提取,支持零样本图像分类和文本-图像检索任务。

模型特点

中文多模态理解
专门针对中文场景优化的视觉-语言联合表征能力
大规模预训练
基于1.23亿中文图文对进行预训练,覆盖广泛视觉概念
高效架构设计
冻结视觉编码器参数,仅微调语言编码器,提升训练效率

模型能力

零样本图像分类
文本-图像检索
多模态特征提取
跨模态相似度计算

使用案例

图像理解
零样本图像分类
无需特定训练即可对图像进行分类
在ImageNet1k-CN上达到54.35% Top1准确率
跨模态检索
文本到图像检索
根据文本描述检索相关图像
在Flickr30k-CNA测试集上达到60.82% Top1准确率
图像到文本检索
根据图像检索相关文本描述
在COCO-CN测试集上达到60.02% Top1准确率