mmlw - retrieval - e5 - large开源神经文本编码器 - 优化波兰语信息检索，免费使用！

首页

Mmlw Retrieval E5 Large

由 sdadas 开发

MMLW是面向波兰语的神经文本编码器，针对信息检索任务优化，可将查询和段落转换为1024维向量

文本嵌入

Transformers

其他开源协议:Apache-2.0 #波兰语检索 #稠密向量编码 #对比学习优化

下载量 56

发布时间 : 10/18/2023

模型简介

该模型通过多语言知识蒸馏和对比损失微调，专门用于波兰语信息检索任务，能将查询和段落编码为高维向量进行相似度计算

模型特点

多语言知识蒸馏

使用英语FlagEmbeddings作为教师模型，在6000万条波兰语-英语文本对上进行知识蒸馏训练

对比损失微调

在波兰版MS MARCO数据集上通过大批量对比学习进行微调，优化检索性能

前缀感知编码

通过添加'query:'和'passage:'前缀区分查询和段落编码，提升检索准确性

模型能力

文本向量化

语义相似度计算

信息检索

跨语言检索

使用案例

搜索引擎

波兰语文档检索

根据用户查询从波兰语文档库中检索最相关内容

在PIRB基准测试中达到NDCG@10值58.30

问答系统

波兰语FAQ匹配

将用户问题与常见问题库进行语义匹配

🚀 MMLW-retrieval-e5-large

MMLW（必须有更好的消息）是用于波兰语的神经文本编码器。该模型针对信息检索任务进行了优化，能够将查询和段落转换为1024维的向量。

🚀 快速开始

MMLW（必须有更好的消息）是用于波兰语的神经文本编码器。此模型针对信息检索任务进行了优化，可将查询和段落转换为1024维向量。

模型的开发采用了两步流程：

第一步，使用多语言E5检查点进行初始化，然后在包含6000万对波兰语 - 英语文本的多样化语料库上，运用多语言知识蒸馏方法进行训练。我们使用英语FlagEmbeddings (BGE)作为蒸馏的教师模型。
第二步，在波兰语MS MARCO训练分割集上，使用对比损失对得到的模型进行微调。为了提高对比训练的效率，我们针对小、中、大模型分别使用了1152、768和288的大批次大小。微调是在一个由12个A100 GPU组成的集群上进行的。

⚠️ 重要提示

2023 - 12 - 26：我们已将模型更新到新版本，结果有所改进。你仍然可以使用 v1 标签下载之前的版本：AutoModel.from_pretrained("sdadas/mmlw-retrieval-e5-large", revision="v1")

✨ 主要特性

专为波兰语设计的神经文本编码器。
针对信息检索任务进行优化。
可将查询和段落转换为1024维向量。

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

query_prefix = "query: "
answer_prefix = "passage: "
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
    answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
    answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
    answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-retrieval-e5-large")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)

best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.

⚠️ 重要提示

我们的密集检索器在编码文本时需要使用特定的前缀和后缀。对于此模型，查询应加上 "query: " 前缀，段落应加上 "passage: " 前缀。

📚 详细文档

评估结果

该模型在波兰语信息检索基准测试中实现了 NDCG@10 为 58.30 的成绩。详细结果请参阅PIRB排行榜。

致谢

此模型的训练得到了格但斯克工业大学在TASK中心倡议下提供的A100 GPU集群的支持。

引用

@article{dadas2024pirb,
  title={{PIRB}: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods}, 
  author={Sławomir Dadas and Michał Perełkiewicz and Rafał Poświata},
  year={2024},
  eprint={2402.13350},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}