M

Mmlw Retrieval E5 Small

由 sdadas 开发
MMLW(我必须得到更好的消息)是波兰语的神经文本编码器,针对信息检索任务进行了优化,可将查询和段落转换为384维向量。
下载量 34
发布时间 : 10/18/2023
模型介绍
内容详情
替代品

模型简介

该模型是一个波兰语的句子转换器,主要用于特征提取和句子相似度计算,特别适用于信息检索任务。

模型特点

多语言知识蒸馏
使用6000万条波兰语-英语文本对进行训练,以英语FlagEmbeddings作为教师模型进行知识蒸馏。
对比损失微调
在波兰版MS MARCO训练集上通过对比损失进行微调,采用大批量尺寸优化训练效率。
前缀增强
编码文本时需添加特定前缀(查询前加'query: ',段落前加'passage: ')以优化检索效果。

模型能力

文本编码
句子相似度计算
信息检索

使用案例

信息检索
问答系统
用于匹配用户查询与相关答案段落
能有效识别语义相关的问答对
文档检索
从大量文档中检索相关内容
在波兰信息检索基准测试中达到NDCG@10分数52.34