M

Mmlw Retrieval E5 Base

由 sdadas 开发
MMLW(我必须得到更好的消息)是波兰语的神经文本编码器,针对信息检索任务进行了优化,能够将查询和段落转换为768维向量。
下载量 144
发布时间 : 10/18/2023
模型介绍
内容详情
替代品

模型简介

该模型是一个波兰语的句子转换器,主要用于特征提取和句子相似度计算,特别适用于信息检索任务。

模型特点

多语言知识蒸馏
使用多语言知识蒸馏方法训练,利用英语FlagEmbeddings作为教师模型
对比损失微调
在波兰MS MARCO训练集上使用对比损失进行微调,采用大批量大小训练
特定前缀处理
查询需要添加'query:'前缀,段落需要添加'passage:'前缀以获得最佳效果

模型能力

文本编码
句子相似度计算
信息检索

使用案例

信息检索
问答系统
用于匹配用户查询与相关答案段落
能够准确找到与查询最相关的答案
文档检索
在大量文档中查找与特定查询最相关的文档
在波兰信息检索基准测试中NDCG@10达到56.09