gte-multilingual-mlm-base开源多语言文本编码器

首页

Gte Multilingual Mlm Base

由 Alibaba-NLP 开发

mGTE系列多语言文本编码器，支持75种语言，最大上下文长度8192，基于BERT+RoPE+GLU架构，在GLUE和XTREME-R基准上表现优异

大型语言模型

Safetensors

开源协议:Apache-2.0 #多语言文本编码 #长上下文支持 #跨语言检索

下载量 342

发布时间 : 8/6/2024

模型简介

通用多语言文本编码器，专注于长上下文文本表示与重排序，适用于多语言检索任务

模型特点

超长上下文支持

支持8192的最大序列长度，适合处理长文档

多语言能力

支持75种语言，在多语言基准测试XTREME-R上表现优异

改进的架构设计

采用BERT+RoPE+GLU的transformer++架构，结合旋转位置编码(RoPE)和门控线性单元(GLU)

多阶段训练策略

采用从短序列到长序列的分阶段训练方法，有效支持长上下文建模

模型能力

多语言文本编码

长文本表示

文本重排序

跨语言检索

使用案例

信息检索

跨语言文档检索

在多语言环境下检索相关文档

在XTREME-R基准上达到64.44分，优于XLM-R-base

自然语言理解

多语言文本分类

对多语言文本进行分类任务

在GLUE基准上达到83.47分

🚀 gte-multilingual-mlm-base

mGTE 系列是全新的通用文本编码器、嵌入和重排序模型，支持 75 种语言，上下文长度最长可达 8192。这些模型基于 transformer++ 编码器骨干（BERT + RoPE + GLU，代码参考 Alibaba-NLP/new-impl）以及 XLM-R 的词汇表构建。这个文本编码器（在我们的论文中为 mGTE-MLM-8192）在 GLUE 和 XTREME-R 任务上均优于同规模的先前最优模型 XLM-R-base。

✨ 主要特性

多语言支持：支持 75 种语言，包括但不限于阿拉伯语、英语、中文、日语等。
长上下文处理：能够处理最长达 8192 的上下文长度。
性能优越：在 GLUE 和 XTREME - R 任务上表现优于同规模的先前最优模型。

📚 详细文档

模型信息

属性	详情
模型类型	文本编码器
开发团队	阿里巴巴集团智能计算研究所
论文	mGTE: Generalized Long - Context Text Representation and Reranking Models for Multilingual Text Retrieval

模型列表

模型	语言	模型大小	最大序列长度	GLUE	XTREME - R
`gte-multilingual-mlm-base`	多语言	306M	8192	83.47	64.44
`gte-en-mlm-base`	英语	-	8192	85.61	-
`gte-en-mlm-large`	英语	-	8192	87.58	-

训练详情

训练数据

掩码语言模型（MLM）：c4-en、mc4、skypile、Wikipedia、CulturaX 等（参考论文附录 A.1）

训练过程

为使骨干模型支持 8192 的上下文长度，采用了多阶段训练策略。模型首先在较短长度上进行初步的 MLM 预训练，然后重新采样数据，减少短文本的比例，并继续进行 MLM 预训练。整个训练过程如下：

MLM - 2048：学习率 2e - 4，掩码概率 0.3，批量大小 8192，步数 250k，RoPE 基数 10000
MLM - 8192：学习率 5e - 5，掩码概率 0.3，批量大小 2048，步数 30k，RoPE 基数 160000

评估结果

模型	语言	模型大小	最大序列长度	GLUE	XTREME - R
`gte-multilingual-mlm-base`	多语言	306M	8192	83.47	64.44
`gte-en-mlm-base`	英语	-	8192	85.61	-
`gte-en-mlm-large`	英语	-	8192	87.58	-
`MosaicBERT-base`	英语	137M	128	85.4	-
`MosaicBERT-base-2048`	英语	137M	2048	85	-
`JinaBERT-base`	英语	137M	512	85	-
`nomic-bert-2048`	英语	137M	2048	84	-
`MosaicBERT-large`	英语	434M	128	86.1	-
`JinaBERT-large`	英语	434M	512	83.7	-
`XLM-R-base`	多语言	279M	512	80.44	62.02
`RoBERTa-base`	英语	125M	512	86.4	-
`RoBERTa-large`	英语	355M	512	88.9	-

引用

如果您发现我们的论文或模型有帮助，请考虑按以下方式引用：

@misc{zhang2024mgtegeneralizedlongcontexttext,
  title={mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval}, 
  author={Xin Zhang and Yanzhao Zhang and Dingkun Long and Wen Xie and Ziqi Dai and Jialong Tang and Huan Lin and Baosong Yang and Pengjun Xie and Fei Huang and Meishan Zhang and Wenjie Li and Min Zhang},
  year={2024},
  eprint={2407.19669},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2407.19669}, 
}