M

M BERT Base ViT B

由 M-CLIP 开发
基于BERT-base-multilingual微调的多语言CLIP文本编码器,支持69种语言与CLIP视觉编码器对齐
下载量 3,376
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型通过微调BERT-base-multilingual,将69种语言的文本嵌入空间与ViT-B/32视觉编码器配套的CLIP文本编码器对齐,实现多语言视觉-语言理解能力。

模型特点

多语言支持
支持69种语言的文本嵌入与CLIP视觉空间对齐
跨模态对齐
通过线性投影将多语言BERT嵌入映射到CLIP视觉编码器的共享空间
翻译数据增强
使用GCC+MSCOCO+VizWiz组合数据翻译生成多语言训练集

模型能力

多语言文本嵌入
跨模态检索
图像-文本匹配
多语言视觉语义理解

使用案例

跨模态检索
多语言图像搜索
使用不同语言查询检索相关图像
多语言内容理解
多语言图像标注
为图像生成多种语言的描述文本