pipeline_tag: 句子相似度
tags:
- 句子相似度
- 句子转换器
license: mit
language:
- 多语言
- 南非荷兰语
- 阿姆哈拉语
- 阿拉伯语
- 阿萨姆语
- 阿塞拜疆语
- 白俄罗斯语
- 保加利亚语
- 孟加拉语
- 布列塔尼语
- 波斯尼亚语
- 加泰罗尼亚语
- 捷克语
- 威尔士语
- 丹麦语
- 德语
- 希腊语
- 英语
- 世界语
- 西班牙语
- 爱沙尼亚语
- 巴斯克语
- 波斯语
- 芬兰语
- 法语
- 弗里斯兰语
- 爱尔兰语
- 苏格兰盖尔语
- 加利西亚语
- 古吉拉特语
- 豪萨语
- 希伯来语
- 印地语
- 克罗地亚语
- 匈牙利语
- 亚美尼亚语
- 印尼语
- 冰岛语
- 意大利语
- 日语
- 爪哇语
- 格鲁吉亚语
- 哈萨克语
- 高棉语
- 卡纳达语
- 韩语
- 库尔德语
- 吉尔吉斯语
- 拉丁语
- 老挝语
- 立陶宛语
- 拉脱维亚语
- 马尔加什语
- 马其顿语
- 马拉雅拉姆语
- 蒙古语
- 马拉地语
- 马来语
- 缅甸语
- 尼泊尔语
- 荷兰语
- 挪威语
- 奥罗莫语
- 奥里亚语
- 旁遮普语
- 波兰语
- 普什图语
- 葡萄牙语
- 罗马尼亚语
- 俄语
- 梵语
- 信德语
- 僧伽罗语
- 斯洛伐克语
- 斯洛文尼亚语
- 索马里语
- 阿尔巴尼亚语
- 塞尔维亚语
- 巽他语
- 瑞典语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 泰语
- 他加禄语
- 土耳其语
- 维吾尔语
- 乌克兰语
- 乌尔都语
- 乌兹别克语
- 越南语
- 科萨语
- 意第绪语
- 中文
这是multilingual-e5-small的量化版本。量化过程按照与我们的ELSErv2模型相同的条件逐层进行,具体方法如此处所述。
通过弱监督对比预训练生成的文本嵌入。
王亮、杨楠、黄晓龙、焦彬星、杨林军、蒋达新、Rangan Majumder、韦福如,arXiv 2022
基准测试
我们进行了一系列小型基准测试,以评估量化模型在质量和推理延迟方面相对于原始基线模型的变化。
质量
使用MIRACL数据集的开发集对选定语言进行NDCG@10测量,我们发现量化模型的质量大多有轻微变化。
|
德语 |
约鲁巴语 |
俄语 |
阿拉伯语 |
西班牙语 |
泰语 |
multilingual-e5-small |
0.75862 |
0.56193 |
0.80309 |
0.82778 |
0.81672 |
0.85072 |
multilingual-e5-small-optimized |
0.75992 |
0.48934 |
0.79668 |
0.82017 |
0.8135 |
0.84316 |
为了测试英语在域外的性能,我们使用了BEIR评估中多个数据集的测试集。测量NDCG@10,我们发现SCIFACT数据集的变化较大,而其他评估数据集的变化较小。
|
FIQA |
SCIFACT |
nfcorpus |
multilingual-e5-small |
0.33126 |
0.677 |
0.31004 |
multilingual-e5-small-optimized |
0.31734 |
0.65484 |
0.30126 |
性能
使用针对Linux和Intel CPU优化的PyTorch模型,我们对不同长度的输入进行了性能基准测试。总体而言,优化模型的性能平均提升了50-20%。
输入长度(字符) |
multilingual-e5-small |
multilingual-e5-small-optimized |
加速比 |
0 - 50 |
0.0181 |
0.00826 |
54.36% |
50 - 100 |
0.0275 |
0.0164 |
40.36% |
100 - 150 |
0.0366 |
0.0237 |
35.25% |
150 - 200 |
0.0435 |
0.0301 |
30.80% |
200 - 250 |
0.0514 |
0.0379 |
26.26% |
250 - 300 |
0.0569 |
0.043 |
24.43% |
300 - 350 |
0.0663 |
0.0513 |
22.62% |
350 - 400 |
0.0737 |
0.0576 |
21.85% |
免责声明
此e5模型的定义、托管、集成以及与我们的其他Elastic软件结合使用时,均受我们的标准保修条款保护。