C

Clip Japanese Base

由 line-corporation 开发
由LY Corporation开发的日语CLIP模型,基于约10亿个网络收集的图像-文本对进行训练,适用于多种视觉任务。
下载量 14.31k
发布时间 : 4/24/2024
模型介绍
内容详情
替代品

模型简介

该模型是基于对比性语言-图像预训练(CLIP)的日语模型,适用于零样本图像分类、文本到图像或图像到文本检索等任务。

模型特点

强大的日语视觉语言理解
专门针对日语优化的CLIP模型,能够理解日语文本与图像之间的关系。
高效架构设计
采用Eva02-B作为图像编码器,相比传统ViT架构更高效。
大规模预训练数据
基于约10亿个网络收集的图像-文本对进行训练,覆盖广泛场景。

模型能力

零样本图像分类
文本到图像检索
图像到文本检索
跨模态特征提取

使用案例

图像检索
基于日语描述的图像搜索
使用日语文本查询检索相关图像
在STAIR Captions数据集上R@1达到0.30
图像分类
零样本日语图像分类
无需微调即可对图像进行分类
在Recruit Datasets上准确率达到89%