J

Japanese Clip Vit B 32 Roberta Base

由 recruit-jp 开发
日语版本的CLIP模型,能够将日语文本和图像映射到相同的嵌入空间,适用于零样本图像分类、文本-图像检索等任务。
下载量 384
发布时间 : 12/20/2023
模型介绍
内容详情
替代品

模型简介

该模型是一个日语版本的CLIP(对比性语言-图像预训练模型),基于ViT-B/32图像编码器和Roberta Base文本编码器,专为日语优化。

模型特点

日语优化
专门针对日语文本和图像进行优化,在日语任务中表现优于通用多语言CLIP模型。
双模态嵌入
能够将图像和文本映射到同一嵌入空间,实现跨模态检索和比较。
零样本学习
无需特定任务训练即可执行图像分类和检索任务。

模型能力

零样本图像分类
文本-图像检索
图像特征提取
文本特征提取
跨模态相似度计算

使用案例

电子商务
产品图像搜索
通过日语文本描述搜索相关产品图像
提高搜索准确性和用户体验
内容管理
图像自动标注
为图像自动生成日语标签
减少人工标注成本