M-BERT-Base-ViT-B开源模型 - 支持69种语言，实现多语言文本编码与视觉编码对齐

首页

M BERT Base ViT B

由 M-CLIP 开发

基于BERT-base-multilingual微调的多语言CLIP文本编码器，支持69种语言与CLIP视觉编码器对齐

多模态对齐 #多语言CLIP对齐 #69种语言支持 #跨模态检索

下载量 3,376

发布时间 : 3/2/2022

模型简介

该模型通过微调BERT-base-multilingual，将69种语言的文本嵌入空间与ViT-B/32视觉编码器配套的CLIP文本编码器对齐，实现多语言视觉-语言理解能力。

模型特点

多语言支持

支持69种语言的文本嵌入与CLIP视觉空间对齐

跨模态对齐

通过线性投影将多语言BERT嵌入映射到CLIP视觉编码器的共享空间

翻译数据增强

使用GCC+MSCOCO+VizWiz组合数据翻译生成多语言训练集

模型能力

多语言文本嵌入

跨模态检索

图像-文本匹配

多语言视觉语义理解

使用案例

跨模态检索

多语言图像搜索

使用不同语言查询检索相关图像

多语言内容理解

多语言图像标注

为图像生成多种语言的描述文本

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

M BERT Base ViT B

模型简介

模型特点

模型能力

使用案例

🚀 M-BERT Base ViT-B

🚀 快速开始

📚 详细文档

模型概述

训练数据

模型卡片