paraphrase-multilingual-mpnet-base-v2-embedding-all开源模型 - 免费算英德句子相似度做文本嵌入

首页

Paraphrase Multilingual Mpnet Base V2 Embedding All

由 LLukas22 开发

该模型是基于paraphrase-multilingual-mpnet-base-v2微调的版本，支持英语和德语句子相似度计算，适用于多语言文本嵌入任务。

文本嵌入

Transformers

支持多种语言开源协议:Apache-2.0 #多语言句子嵌入 #问答系统优化 #高精度语义匹配

下载量 28

发布时间 : 2/23/2023

模型简介

该模型主要用于句子相似度计算和特征提取，经过多个数据集微调，能够生成高质量的句子嵌入表示。

模型特点

多语言支持

支持英语和德语的句子相似度计算和特征提取

高质量嵌入

经过多个高质量数据集微调，能生成准确的句子嵌入表示

高效训练

采用混合精度训练和D-Adaptation优化技术，训练效率高

模型能力

句子相似度计算

文本特征提取

多语言文本处理

使用案例

信息检索

问答系统

可用于构建问答系统，匹配问题和相关答案

在评估中top_1准确率达到32.4%

文档检索

用于检索与查询最相关的文档

在评估中top_10准确率达到50.1%

文本分析

文本聚类

可用于将语义相似的文本聚类分组

🚀 多语言句子嵌入模型 paraphrase-multilingual-mpnet-base-v2-embedding-all

本模型是 paraphrase-multilingual-mpnet-base-v2 的微调版本，在以下数据集上进行了微调：squad、newsqa、LLukas22/cqadupstack、LLukas22/fiqa、LLukas22/scidocs、deepset/germanquad、LLukas22/nq。该模型可用于句子相似度计算等任务。

🚀 快速开始

本模型可以借助 sentence-transformers 库轻松使用。

📦 安装指南

首先，确保你已经安装了 sentence-transformers 库，可使用以下命令进行安装：

pip install -U sentence-transformers

💻 使用示例

基础用法

安装完成后，你可以按照以下示例代码使用该模型：

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('LLukas22/paraphrase-multilingual-mpnet-base-v2-embedding-all')
embeddings = model.encode(sentences)
print(embeddings)

🔧 技术细节

训练超参数

以下是训练过程中使用的超参数：

学习率（learning_rate）：1E+00
每个设备的批量大小（per device batch size）：40
有效批量大小（effective batch size）：120
随机种子（seed）：42
优化器（optimizer）：AdamW，β值为 (0.9, 0.999)，ε值为 1E-08
权重衰减（weight decay）：2E-02
D 自适应（D-Adaptation）：True
热身（Warmup）：True
训练轮数（number of epochs）：15
混合精度训练（mixed_precision_training）：bf16

训练结果

轮数（Epoch）	训练损失（Train Loss）	验证损失（Validation Loss）
0	0.085	0.0625
1	0.0598	0.0554
2	0.0484	0.0518
3	0.0405	0.0485
4	0.0341	0.0463
5	0.0287	0.0454
6	0.0243	0.0445
7	0.0207	0.0426
8	0.0177	0.0424
9	0.0153	0.0421
10	0.0134	0.0417
11	0.012	0.0411
12	0.011	0.0414

评估结果

轮数（Epoch）	前 1 准确率（top_1）	前 3 准确率（top_3）	前 5 准确率（top_5）	前 10 准确率（top_10）	前 25 准确率（top_25）
0	0.261	0.351	0.384	0.422	0.459
1	0.272	0.365	0.4	0.439	0.477
2	0.276	0.37	0.404	0.443	0.481
3	0.292	0.391	0.426	0.465	0.503
4	0.295	0.395	0.431	0.47	0.51
5	0.299	0.4	0.437	0.476	0.514
6	0.306	0.404	0.44	0.478	0.515
7	0.309	0.41	0.445	0.485	0.521
8	0.31	0.411	0.448	0.487	0.524
9	0.315	0.417	0.454	0.493	0.529
10	0.319	0.42	0.457	0.495	0.53
11	0.323	0.424	0.46	0.497	0.531
12	0.324	0.427	0.464	0.501	0.536