C

Chinese Clip Vit Base Patch16

由 OFA-Sys 开发
中文CLIP的基础版本,采用ViT-B/16作为图像编码器,RoBERTa-wwm-base作为文本编码器,在约2亿中文图文对的大规模数据集上训练。
下载量 49.02k
发布时间 : 11/9/2022
模型介绍
内容详情
替代品

模型简介

中文CLIP是一个视觉-语言模型,能够计算图像和文本的嵌入及相似度,支持中文图文检索和分类任务。

模型特点

中文优化
专门针对中文语言和场景优化,支持中文图文检索和分类任务。
大规模训练
在约2亿中文图文对的大规模数据集上训练,具有强大的泛化能力。
多任务支持
支持多种视觉-语言任务,包括图文检索、图像分类等。

模型能力

计算图像和文本的嵌入
计算图文相似度
中文图文检索
零样本图像分类

使用案例

电子商务
商品搜索
通过文本描述搜索相关商品图片
在MUGE数据集上R@1达到63.0
内容审核
违规内容检测
通过文本描述检测违规图片
社交媒体
图文匹配
为图片自动生成合适的文字描述
在Flickr30K-CN数据集上图像到文本R@1达到81.6