cross-en-de-roberta-sentence-transformer开源模型 - 支持英德跨语言，用于语义搜索等任务

首页

Cross En De Roberta Sentence Transformer

由 T-Systems-onsite 开发

一个支持英语和德语的跨语言句子嵌入模型，可用于语义文本相似性、语义搜索和释义挖掘等任务。

文本嵌入

Transformers

支持多种语言开源协议:MIT #跨语言语义搜索 #德英句子嵌入 #高精度相似度计算

下载量 7,305

发布时间 : 3/2/2022

模型简介

该模型基于xlm-roberta-base架构，经过多语言微调，能够将英语和德语句子转换为语义相似的向量表示，支持跨语言语义搜索和相似性比较。

模型特点

跨语言能力

支持英语和德语之间的跨语言语义搜索和相似性比较。

高性能

在英语和德语的STSbenchmark测试中表现优异，甚至超越专用英语大型模型。

多语言微调

通过多语言微调和语言交叉训练，提升了模型的跨语言性能。

模型能力

计算句子嵌入

语义文本相似性比较

语义搜索

释义挖掘

使用案例

信息检索

跨语言语义搜索

使用德语搜索查询找到英语和德语中语义相关的结果。

搜索结果准确度高，支持跨语言匹配。

文本分析

语义相似性分析

比较不同句子的语义相似性，用于文本聚类或分类。

在STSbenchmark测试中表现出色。

🚀 跨英语和德语的RoBERTa句子嵌入模型

本模型旨在为英语和德语文本计算句子（文本）嵌入。这些嵌入可以通过余弦相似度进行比较，以找出语义相近的句子。例如，这在语义文本相似度、语义搜索或释义挖掘等任务中非常有用。要使用此模型，你需要借助Sentence Transformers Python框架。

该模型的特别之处在于它支持跨语言使用。无论输入的是何种语言，句子都会根据其语义被转换为非常相似的向量。这意味着，例如，你可以用德语进行搜索，然后根据语义找到德语和英语的相关结果。通过使用xlm模型和“跨语言多语言微调”，我们取得了甚至超过当前最佳英语大型模型的性能（详见下面的评估部分）。

Sentence-BERT（SBERT）是对预训练的BERT网络的改进，它使用孪生网络和三元组网络结构来导出语义上有意义的句子嵌入，这些嵌入可以使用余弦相似度进行比较。这将寻找最相似句子对的时间从使用BERT / RoBERTa时的65小时减少到使用SBERT时的约5秒，同时保持了BERT的准确性。

来源：Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

此模型由Philip May进行微调，并由T-Systems-onsite开源。特别感谢Nils Reimers的优秀开源工作，包括Sentence Transformers、相关模型以及在GitHub上提供的帮助。

🚀 快速开始

要使用此模型，你需要安装sentence-transformers包（详见：https://github.com/UKPLab/sentence-transformers）。

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('T-Systems-onsite/cross-en-de-roberta-sentence-transformer')

有关使用细节和示例，请参考以下链接：

✨ 主要特性

跨语言支持：能够处理英语和德语文本，并进行跨语言的语义匹配。
性能优越：通过“跨语言多语言微调”，在英语和德语任务上取得了出色的性能。

📦 安装指南

安装sentence-transformers包：

pip install sentence-transformers

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('T-Systems-onsite/cross-en-de-roberta-sentence-transformer')

高级用法

你可以参考以下链接获取更多高级使用场景：

📚 详细文档

训练过程

基础模型：使用xlm-roberta-base作为基础模型。
中间模型：Nils Reimers在一个包含50多种语言的大规模释义数据集上对其进行了进一步训练，得到了xlm-r-distilroberta-base-paraphrase-v1模型，该模型发布于：https://github.com/UKPLab/sentence-transformers/releases/tag/v0.3.8。
微调过程：在此跨语言模型的基础上，我们在STSbenchmark数据集上对英语和德语进行了微调。对于德语，我们使用了German STSbenchmark dataset数据集，该数据集是使用deepl.com翻译的。除了德语和英语的训练样本外，我们还生成了英语和德语交叉的样本，我们称之为“跨语言多语言微调”。这使训练数据量增加了一倍，测试表明它进一步提高了性能。
超参数搜索：我们使用Optuna进行了33次自动超参数搜索。在deepl.com测试和开发数据集上进行10折交叉验证后，我们得到了以下最佳超参数：
- batch_size = 8
- num_epochs = 2
- lr = 1.026343323298136e-05
- eps = 4.462251033010287e-06
- weight_decay = 0.04794438776350409
- warmup_steps_proportion = 0.1609010732760181
最终训练：最终模型使用这些超参数在英语、德语及其交叉的训练和开发数据集的组合上进行训练，测试集留作测试用。

评估

评估是在英语、德语以及两种语言交叉的STSbenchmark测试数据上进行的。评估代码可在Colab上获取。我们使用句子嵌入的余弦相似度与STSbenchmark标签之间的Spearman等级相关性作为评估指标。

模型名称	Spearman 德语	Spearman 英语	Spearman 英德 & 德英 (交叉)
xlm-r-distilroberta-base-paraphrase-v1	0.8079	0.8350	0.7983
xlm-r-100langs-bert-base-nli-stsb-mean-tokens	0.7877	0.8465	0.7908
xlm-r-bert-base-nli-stsb-mean-tokens	0.7877	0.8465	0.7908
roberta-large-nli-stsb-mean-tokens	0.6371	0.8639	0.4109
T-Systems-onsite/ german-roberta-sentence-transformer-v2	0.8529	0.8634	0.8415
paraphrase-multilingual-mpnet-base-v2	0.8355	0.8682	0.8309
T-Systems-onsite/ cross-en-de-roberta-sentence-transformer	0.8550	0.8660	0.8525