J

Japanese Cloob Vit B 16

由 rinna 开发
由rinna株式会社训练的日语CLOOB(对比留一增强)模型,用于图像与文本的跨模态理解
下载量 229.51k
发布时间 : 4/27/2022
模型介绍
内容详情
替代品

模型简介

该模型基于CLOOB架构,能够理解日语文本与图像之间的关联,支持图像分类和文本-图像匹配等任务

模型特点

日语跨模态理解
专门针对日语设计的视觉-语言模型,能有效理解日语文本与图像的关联
CLOOB架构
采用对比留一增强(CLOOB)方法,提升跨模态表示学习效果
预训练ViT模型
图像编码器基于AugReg vit-base-patch16-224模型初始化

模型能力

图像特征提取
文本特征提取
图像-文本匹配
跨模态检索

使用案例

图像分类
动物图像分类
识别图像中的动物类别(如犬、猫、象)
示例显示对犬类图像分类准确率达100%
跨模态检索
文本到图像检索
根据日语文本描述检索相关图像