multilingual-e5-large-pooled-Q8_0-GGUF开源模型 - 支持多语言句子相似度计算与特征提取

首页

Multilingual E5 Large Pooled Q8 0 GGUF

由 falan42 开发

多语言E5大型池化模型，支持多种语言的句子相似度计算和特征提取任务。

文本嵌入支持多种语言开源协议:MIT #多语言嵌入 #文本相似度计算 #跨语言检索

下载量 56

发布时间 : 5/13/2025

模型简介

这是一个多语言的句子嵌入模型，基于E5架构，能够处理多种语言的文本并生成高质量的句子嵌入表示。

模型特点

多语言支持

支持超过100种语言的文本处理，包括主流语言和部分小众语言

高性能句子嵌入

在多种语言的句子相似度任务上表现出色，能够生成高质量的句子向量表示

MTEB基准测试验证

在MTEB(Massive Text Embedding Benchmark)多个任务上进行了广泛评估，性能可靠

模型能力

多语言文本嵌入

句子相似度计算

文本特征提取

跨语言信息检索

使用案例

信息检索

跨语言文档检索

使用统一的嵌入空间检索不同语言的相似文档

在MTEB BUCC跨语言bitext mining任务上达到97-99%的准确率

文本分类

多语言情感分析

对多种语言的文本进行情感倾向分类

在MTEB EmotionClassification任务上达到46.5%准确率

产品评论分类

对亚马逊多语言评论进行分类

在MTEB AmazonReviewsClassification任务上英语达到47.56%准确率

问答系统

事实检索问答

从知识库中检索与问题相关的文档

在MTEB HotpotQA任务上达到84.32%的MRR@10

🚀 falan42/multilingual-e5-large-pooled-Q8_0-GGUF

该模型是通过 llama.cpp 并借助 ggml.ai 的 GGUF-my-repo 空间，从 Hiveurban/multilingual-e5-large-pooled 转换为 GGUF 格式的。如需了解该模型的更多详细信息，请参考原始模型卡片。

🚀 快速开始

✨ 主要特性

支持多语言，涵盖了众多不同语系的语言，如英语、中文、日语、阿拉伯语等。
经过转换为 GGUF 格式，可方便地在 llama.cpp 中使用。

📦 安装指南

通过 brew（适用于 Mac 和 Linux）安装 llama.cpp：

brew install llama.cpp

💻 使用示例

基础用法

使用 llama.cpp 的 CLI 进行推理：

llama-cli --hf-repo falan42/multilingual-e5-large-pooled-Q8_0-GGUF --hf-file multilingual-e5-large-pooled-q8_0.gguf -p "The meaning to life and the universe is"

使用 llama.cpp 的服务器模式：

llama-server --hf-repo falan42/multilingual-e5-large-pooled-Q8_0-GGUF --hf-file multilingual-e5-large-pooled-q8_0.gguf -c 2048

高级用法

你也可以直接按照 Llama.cpp 仓库中列出的使用步骤使用该检查点：步骤 1：从 GitHub 克隆 llama.cpp：

git clone https://github.com/ggerganov/llama.cpp

步骤 2：进入 llama.cpp 文件夹，并使用 LLAMA_CURL=1 标志以及其他特定硬件标志（例如，在 Linux 上使用 Nvidia GPU 时使用 LLAMA_CUDA=1）进行编译：

cd llama.cpp && LLAMA_CURL=1 make

步骤 3：通过主二进制文件运行推理：

./llama-cli --hf-repo falan42/multilingual-e5-large-pooled-Q8_0-GGUF --hf-file multilingual-e5-large-pooled-q8_0.gguf -p "The meaning to life and the universe is"

或者

./llama-server --hf-repo falan42/multilingual-e5-large-pooled-Q8_0-GGUF --hf-file multilingual-e5-large-pooled-q8_0.gguf -c 2048

📚 详细文档

该模型支持的语言列表如下：

语言代码	语言名称
`af`	南非荷兰语
`am`	阿姆哈拉语
`ar`	阿拉伯语
`as`	阿萨姆语
`az`	阿塞拜疆语
`be`	白俄罗斯语
`bg`	保加利亚语
`bn`	孟加拉语
`br`	布列塔尼语
`bs`	波斯尼亚语
`ca`	加泰罗尼亚语
`cs`	捷克语
`cy`	威尔士语
`da`	丹麦语
`de`	德语
`el`	希腊语
`en`	英语
`eo`	世界语
`es`	西班牙语
`et`	爱沙尼亚语
`eu`	巴斯克语
`fa`	波斯语
`fi`	芬兰语
`fr`	法语
`fy`	弗里西语
`ga`	爱尔兰语
`gd`	苏格兰盖尔语
`gl`	加利西亚语
`gu`	古吉拉特语
`ha`	豪萨语
`he`	希伯来语
`hi`	印地语
`hr`	克罗地亚语
`hu`	匈牙利语
`hy`	亚美尼亚语
`id`	印尼语
`is`	冰岛语
`it`	意大利语
`ja`	日语
`jv`	爪哇语
`ka`	格鲁吉亚语
`kk`	哈萨克语
`km`	高棉语
`kn`	卡纳达语
`ko`	韩语
`ku`	库尔德语
`ky`	吉尔吉斯语
`la`	拉丁语
`lo`	老挝语
`lt`	立陶宛语
`lv`	拉脱维亚语
`mg`	马尔加什语
`mk`	马其顿语
`ml`	马拉雅拉姆语
`mn`	蒙古语
`mr`	马拉地语
`ms`	马来语
`my`	缅甸语
`ne`	尼泊尔语
`nl`	荷兰语
`no`	挪威语
`om`	奥罗莫语
`or`	奥里亚语
`pa`	旁遮普语
`pl`	波兰语
`ps`	普什图语
`pt`	葡萄牙语
`ro`	罗马尼亚语
`ru`	俄语
`sa`	梵语
`sd`	信德语
`si`	僧伽罗语
`sk`	斯洛伐克语
`sl`	斯洛文尼亚语
`so`	索马里语
`sq`	阿尔巴尼亚语
`sr`	塞尔维亚语
`su`	巽他语
`sv`	瑞典语
`sw`	斯瓦希里语
`ta`	泰米尔语
`te`	泰卢固语
`th`	泰语
`tl`	他加禄语
`tr`	土耳其语
`ug`	维吾尔语
`uk`	乌克兰语
`ur`	乌尔都语
`uz`	乌兹别克语
`vi`	越南语
`xh`	科萨语
`yi`	意第绪语
`zh`	中文

🔧 技术细节

该模型在多个任务和数据集上进行了测试，以下是部分测试结果：

分类任务

MTEB AmazonCounterfactualClassification (en)：准确率为 79.05970149253731，平均精度为 43.486574390835635，F1 值为 73.32700092140148。
MTEB AmazonPolarityClassification：准确率为 93.489875，平均精度为 90.98758636917603，F1 值为 93.48554819717332。