许可证:apache-2.0
流水线标签:句子相似度
标签:
- sentence-transformers
- 特征提取
- 句子相似度
- transformers
- 训练生成
数据集:
- squad
- newsqa
- LLukas22/cqadupstack
- LLukas22/fiqa
- LLukas22/scidocs
- deepset/germanquad
- LLukas22/nq
语言:
all-mpnet-base-v2-embedding-all
本模型是基于以下数据集微调的sentence-transformers/all-mpnet-base-v2版本:squad、newsqa、LLukas22/cqadupstack、LLukas22/fiqa、LLukas22/scidocs、deepset/germanquad、LLukas22/nq。
使用方法(Sentence-Transformers)
安装sentence-transformers后即可轻松使用本模型:
pip install -U sentence-transformers
调用示例:
from sentence_transformers import SentenceTransformer
sentences = ["这是一个示例句子", "每个句子将被转换"]
model = SentenceTransformer('LLukas22/all-mpnet-base-v2-embedding-all')
embeddings = model.encode(sentences)
print(embeddings)
训练超参数
训练过程中使用的超参数如下:
- 学习率:1E+00
- 单设备批次大小:60
- 有效批次大小:180
- 随机种子:42
- 优化器:AdamW(beta1=0.9,beta2=0.999,eps=1E-08)
- 权重衰减:2E-02
- 启用D-Adaptation
- 启用热身训练
- 训练轮次:15
- 混合精度训练:bf16
训练结果
轮次 |
训练损失 |
验证损失 |
0 |
0.0554 |
0.047 |
1 |
0.044 |
0.0472 |
2 |
0.0374 |
0.0425 |
3 |
0.0322 |
0.041 |
4 |
0.0278 |
0.0403 |
5 |
0.0246 |
0.0389 |
6 |
0.0215 |
0.0389 |
7 |
0.0192 |
0.0388 |
8 |
0.017 |
0.0379 |
9 |
0.0154 |
0.0375 |
10 |
0.0142 |
0.0381 |
11 |
0.0132 |
0.0372 |
12 |
0.0126 |
0.0377 |
13 |
0.012 |
0.0377 |
评估结果
轮次 |
top_1 |
top_3 |
top_5 |
top_10 |
top_25 |
0 |
0.373 |
0.476 |
0.509 |
0.544 |
0.573 |
1 |
0.362 |
0.466 |
0.501 |
0.537 |
0.568 |
2 |
0.371 |
0.476 |
0.511 |
0.546 |
0.576 |
3 |
0.369 |
0.473 |
0.506 |
0.54 |
0.569 |
4 |
0.373 |
0.478 |
0.512 |
0.547 |
0.578 |
5 |
0.378 |
0.483 |
0.517 |
0.552 |
0.58 |
6 |
0.371 |
0.475 |
0.509 |
0.543 |
0.571 |
7 |
0.379 |
0.484 |
0.517 |
0.55 |
0.578 |
8 |
0.378 |
0.482 |
0.515 |
0.548 |
0.575 |
9 |
0.383 |
0.489 |
0.523 |
0.556 |
0.584 |
10 |
0.38 |
0.483 |
0.517 |
0.549 |
0.575 |
11 |
0.38 |
0.485 |
0.518 |
0.551 |
0.577 |
12 |
0.383 |
0.489 |
0.522 |
0.556 |
0.582 |
13 |
0.385 |
0.49 |
0.523 |
0.555 |
0.581 |
框架版本
- Transformers:4.25.1
- PyTorch:2.0.0.dev20230210+cu118
- PyTorch Lightning:1.8.6
- 数据集:2.7.1
- Tokenizers:0.13.1
- Sentence Transformers:2.2.2
附加信息
本模型是作为我的硕士论文《基于Transformer的语言模型在服务信息系统中的应用评估》的一部分训练的。源代码可在Github获取。