MEXMA开源跨语言句子编码器 - 免费部署提升句子表征质量

首页

MEXMA

由 facebook 开发

MEXMA是一种创新的跨语言句子编码器，通过整合句子级和词元级双重目标提升句子表征质量。

文本嵌入

Transformers

开源协议:MIT #跨语言句子编码 #词元级优化 #双语文本挖掘

下载量 1,544

发布时间 : 10/4/2024

模型简介

MEXMA是一种预训练的跨语言句子编码器，通过同时优化句子级和词元级目标来提升句子表征的质量，在双语文本挖掘和多项下游任务中表现优异。

模型特点

双重目标优化

同时使用句子级和词元级目标进行训练，减少信息丢失，提升表征质量

跨语言能力

通过一种语言的句子表征预测另一种语言的掩码词元，增强跨语言理解

高质量句子表征

在双语文本挖掘和多项下游任务中超越现有预训练跨语言句子编码器

模型能力

跨语言句子编码

句子相似度计算

双语文本挖掘

使用案例

文本挖掘

跨语言文档检索

在不同语言间查找语义相似的文档

相比仅使用句子级目标的模型有显著提升

下游NLP任务

跨语言文本分类

使用学习到的句子表征进行分类任务

性能优于现有预训练跨语言句子编码器

🚀 MEXMA跨语言句子编码器

MEXMA是一种创新的跨语言句子编码方法，它整合了句子级和词元级目标，有效解决了现有预训练跨语言句子编码器仅使用句子级目标而导致的信息丢失问题，显著提升了句子表示质量，在多项任务中表现出色。

✨ 主要特性

当前的预训练跨语言句子编码器方法仅使用句子级目标，这可能会导致信息丢失，特别是词元信息的丢失，进而降低句子表示的质量。MEXMA提出了一种新颖的方法，将句子级和词元级目标相结合。它利用一种语言的句子表示来预测另一种语言中的掩码词元，同时句子表示和所有词元直接更新编码器。实验表明，添加词元级目标极大地提高了多个任务中的句子表示质量。该方法在双语挖掘以及多个下游任务中优于现有的预训练跨语言句子编码器。此外，还对词元中编码的信息以及句子表示如何从这些词元构建进行了分析。

💻 使用示例

基础用法

# 你可以像使用其他XLM - RoBERTa模型一样使用这个模型，需要注意的是 "pooler" 未经过训练，所以你应该直接使用编码器输出的CLS作为句子表示：
from transformers import AutoTokenizer, XLMRobertaModel

tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large")
model = XLMRobertaModel.from_pretrained("facebook/MEXMA", add_pooling_layer=False)
example_sentences = ['Sentence1', 'Sentence2']
example_inputs = tokenizer(example_sentences, return_tensors='pt')

outputs = model(**example_inputs)
sentence_representation = outputs.last_hidden_state[:, 0]
print(sentence_representation.shape) # torch.Size([2, 1024])

📄 许可证

此模型根据MIT许可证发布。

📚 详细文档

训练代码

有关此模型的训练代码，请查看官方 MEXMA仓库。

论文

MEXMA: Token-level objectives improve sentence representations

引用

如果您在工作中使用此模型，请引用：

@misc{janeiro2024mexma,
  title={MEXMA: Token-level objectives improve sentence representations}, 
  author={João Maria Janeiro and Benjamin Piwowarski and Patrick Gallinari and Loïc Barrault},
  year={2024},
  eprint={2409.12737},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2409.12737}, 
}

信息表格

属性	详情
模型类型	跨语言句子编码器
基础模型	FacebookAI/xlm - roberta - large
任务类型	句子相似度
许可证	MIT
论文链接	MEXMA: Token-level objectives improve sentence representations
训练代码仓库	MEXMA仓库