C

Chinese Clip Vit Large Patch14 336px

由 OFA-Sys 开发
中文CLIP是基于约2亿中文图文对数据集的CLIP简化实现,采用ViT-L/14@336px作为图像编码器,RoBERTa-wwm-base作为文本编码器。
下载量 713
发布时间 : 11/9/2022
模型介绍
内容详情
替代品

模型简介

大规模中文视觉语言预训练模型,支持图文相似度计算、跨模态检索等任务。

模型特点

大规模中文预训练
基于2亿中文图文对数据集训练,对中文场景有更好的理解能力
高性能跨模态检索
在MUGE、Flickr30K-CN等中文基准测试上达到SOTA性能
零样本迁移能力
支持零样本图像分类和跨模态检索任务

模型能力

图文相似度计算
文本到图像检索
图像到文本检索
零样本图像分类

使用案例

电商
商品图文匹配
自动匹配商品图片与描述文字
提升商品搜索准确率
内容审核
违规内容检测
检测图文不一致的违规内容
提高审核效率