multilingual-e5-small-optimized开源模型 - 多语言处理性能提升仍保高质量

首页

Multilingual E5 Small Optimized

由 elastic 开发

这是multilingual-e5-small的量化版本，通过逐层量化优化了推理性能，同时保持了原始模型的大部分质量。

文本嵌入

PyTorch

支持多种语言开源协议:MIT #多语言嵌入 #量化优化 #语义相似度

下载量 201

发布时间 : 11/16/2023

模型简介

该模型是通过弱监督对比预训练生成的文本嵌入模型，支持多种语言的句子相似度计算。

模型特点

多语言支持

支持超过100种语言的句子相似度计算

量化优化

通过逐层量化技术优化模型，提高推理速度

性能提升

相比原始模型，推理速度提升20-50%

模型能力

多语言句子嵌入

句子相似度计算

跨语言文本匹配

使用案例

信息检索

多语言文档检索

在多语言文档集合中查找与查询最相关的文档

在MIRACL数据集上表现良好

语义搜索

跨语言搜索

使用一种语言的查询搜索另一种语言的文档

🚀 多语言-e5-small量化版模型

本项目是 multilingual-e5-small 的量化版本。量化是在每层进行的，条件与我们的 ELSERv2 模型相同，具体可参考此处的描述。该模型可用于句子相似度计算，支持多种语言。

🚀 快速开始

本模型是基于论文 Text Embeddings by Weakly-Supervised Contrastive Pre-training 开发的。论文作者为 Liang Wang、Nan Yang、Xiaolong Huang、Binxing Jiao、Linjun Yang、Daxin Jiang、Rangan Majumder、Furu Wei，于 2022 年发表在 arXiv 上。

✨ 主要特性

多语言支持：支持多种语言，包括但不限于英语、中文、阿拉伯语、德语、法语等众多语言。
量化优化：对 multilingual-e5-small 模型进行量化，在一定程度上提升了性能。

📚 详细文档

基准测试

我们进行了一系列小型基准测试，以评估量化模型相对于原始基准模型在质量和推理延迟方面的变化。

质量评估

特定语言质量：使用 MIRACL 数据集的开发集，通过测量 NDCG@10 来评估特定语言的质量。从结果来看，量化模型的质量大多只有微小变化。 | 语言 | multilingual-e5-small | multilingual-e5-small-optimized | | ---- | ---- | ---- | | 德语 (de) | 0.75862 | 0.75992 | | 约鲁巴语 (yo) | 0.56193 | 0.48934 | | 俄语 (ru) | 0.80309 | 0.79668 | | 阿拉伯语 (ar) | 0.82778 | 0.82017 | | 西班牙语 (es) | 0.81672 | 0.8135 | | 泰语 (th) | 0.85072 | 0.84316 |
英语跨领域性能：使用 BEIR 评估中各种数据集的测试集来测试英语的跨领域性能。测量 NDCG@10 时，我们发现 SCIFACT 数据集的变化较大，而其他评估数据集的变化较小。 | 数据集 | multilingual-e5-small | multilingual-e5-small-optimized | | ---- | ---- | ---- | | FIQA | 0.33126 | 0.31734 | | SCIFACT | 0.677 | 0.65484 | | nfcorpus | 0.31004 | 0.30126 |

性能评估

使用为 Linux 和英特尔 CPU 跟踪的 PyTorch 模型，我们对不同输入长度进行了性能基准测试。总体而言，优化后的模型平均有 20 - 50% 的性能提升。

输入长度（字符）	multilingual-e5-small	multilingual-e5-small-optimized	加速比
0 - 50	0.0181	0.00826	54.36%
50 - 100	0.0275	0.0164	40.36%
100 - 150	0.0366	0.0237	35.25%
150 - 200	0.0435	0.0301	30.80%
200 - 250	0.0514	0.0379	26.26%
250 - 300	0.0569	0.043	24.43%
300 - 350	0.0663	0.0513	22.62%
350 - 400	0.0737	0.0576	21.85%

免责声明

此 e5 模型在与我们的其他 Elastic 软件一起定义、托管、集成和使用时，受我们的标准保修条款覆盖。

📄 许可证

本项目采用 MIT 许可证。

支持语言信息

属性	详情
模型类型	句子相似度计算模型
支持语言	多语言，包括南非语 (af)、阿姆哈拉语 (am)、阿拉伯语 (ar)、阿萨姆语 (as)、阿塞拜疆语 (az)、白俄罗斯语 (be)、保加利亚语 (bg)、孟加拉语 (bn)、布列塔尼语 (br)、波斯尼亚语 (bs)、加泰罗尼亚语 (ca)、捷克语 (cs)、威尔士语 (cy)、丹麦语 (da)、德语 (de)、希腊语 (el)、英语 (en)、世界语 (eo)、西班牙语 (es)、爱沙尼亚语 (et)、巴斯克语 (eu)、波斯语 (fa)、芬兰语 (fi)、法语 (fr)、弗里西亚语 (fy)、爱尔兰语 (ga)、苏格兰盖尔语 (gd)、加利西亚语 (gl)、古吉拉特语 (gu)、豪萨语 (ha)、希伯来语 (he)、印地语 (hi)、克罗地亚语 (hr)、匈牙利语 (hu)、亚美尼亚语 (hy)、印尼语 (id)、冰岛语 (is)、意大利语 (it)、日语 (ja)、爪哇语 (jv)、格鲁吉亚语 (ka)、哈萨克语 (kk)、高棉语 (km)、卡纳达语 (kn)、韩语 (ko)、库尔德语 (ku)、吉尔吉斯语 (ky)、拉丁语 (la)、老挝语 (lo)、立陶宛语 (lt)、拉脱维亚语 (lv)、马尔加什语 (mg)、马其顿语 (mk)、马拉雅拉姆语 (ml)、蒙古语 (mn)、马拉地语 (mr)、马来语 (ms)、缅甸语 (my)、尼泊尔语 (ne)、荷兰语 (nl)、挪威语 (no)、奥罗莫语 (om)、奥里亚语 (or)、旁遮普语 (pa)、波兰语 (pl)、普什图语 (ps)、葡萄牙语 (pt)、罗马尼亚语 (ro)、俄语 (ru)、梵语 (sa)、信德语 (sd)、僧伽罗语 (si)、斯洛伐克语 (sk)、斯洛文尼亚语 (sl)、索马里语 (so)、阿尔巴尼亚语 (sq)、塞尔维亚语 (sr)、巽他语 (su)、瑞典语 (sv)、斯瓦希里语 (sw)、泰米尔语 (ta)、泰卢固语 (te)、泰语 (th)、他加禄语 (tl)、土耳其语 (tr)、维吾尔语 (ug)、乌克兰语 (uk)、乌尔都语 (ur)、乌兹别克语 (uz)、越南语 (vi)、科萨语 (xh)、意第绪语 (yi)、中文 (zh)

属性

详情

模型类型

句子相似度计算模型

支持语言

多语言，包括南非语 (af)、阿姆哈拉语 (am)、阿拉伯语 (ar)、阿萨姆语 (as)、阿塞拜疆语 (az)、白俄罗斯语 (be)、保加利亚语 (bg)、孟加拉语 (bn)、布列塔尼语 (br)、波斯尼亚语 (bs)、加泰罗尼亚语 (ca)、捷克语 (cs)、威尔士语 (cy)、丹麦语 (da)、德语 (de)、希腊语 (el)、英语 (en)、世界语 (eo)、西班牙语 (es)、爱沙尼亚语 (et)、巴斯克语 (eu)、波斯语 (fa)、芬兰语 (fi)、法语 (fr)、弗里西亚语 (fy)、爱尔兰语 (ga)、苏格兰盖尔语 (gd)、加利西亚语 (gl)、古吉拉特语 (gu)、豪萨语 (ha)、希伯来语 (he)、印地语 (hi)、克罗地亚语 (hr)、匈牙利语 (hu)、亚美尼亚语 (hy)、印尼语 (id)、冰岛语 (is)、意大利语 (it)、日语 (ja)、爪哇语 (jv)、格鲁吉亚语 (ka)、哈萨克语 (kk)、高棉语 (km)、卡纳达语 (kn)、韩语 (ko)、库尔德语 (ku)、吉尔吉斯语 (ky)、拉丁语 (la)、老挝语 (lo)、立陶宛语 (lt)、拉脱维亚语 (lv)、马尔加什语 (mg)、马其顿语 (mk)、马拉雅拉姆语 (ml)、蒙古语 (mn)、马拉地语 (mr)、马来语 (ms)、缅甸语 (my)、尼泊尔语 (ne)、荷兰语 (nl)、挪威语 (no)、奥罗莫语 (om)、奥里亚语 (or)、旁遮普语 (pa)、波兰语 (pl)、普什图语 (ps)、葡萄牙语 (pt)、罗马尼亚语 (ro)、俄语 (ru)、梵语 (sa)、信德语 (sd)、僧伽罗语 (si)、斯洛伐克语 (sk)、斯洛文尼亚语 (sl)、索马里语 (so)、阿尔巴尼亚语 (sq)、塞尔维亚语 (sr)、巽他语 (su)、瑞典语 (sv)、斯瓦希里语 (sw)、泰米尔语 (ta)、泰卢固语 (te)、泰语 (th)、他加禄语 (tl)、土耳其语 (tr)、维吾尔语 (ug)、乌克兰语 (uk)、乌尔都语 (ur)、乌兹别克语 (uz)、越南语 (vi)、科萨语 (xh)、意第绪语 (yi)、中文 (zh)