M

Mmlw Retrieval E5 Large

由 sdadas 开发
MMLW是面向波兰语的神经文本编码器,针对信息检索任务优化,可将查询和段落转换为1024维向量
下载量 56
发布时间 : 10/18/2023
模型介绍
内容详情
替代品

模型简介

该模型通过多语言知识蒸馏和对比损失微调,专门用于波兰语信息检索任务,能将查询和段落编码为高维向量进行相似度计算

模型特点

多语言知识蒸馏
使用英语FlagEmbeddings作为教师模型,在6000万条波兰语-英语文本对上进行知识蒸馏训练
对比损失微调
在波兰版MS MARCO数据集上通过大批量对比学习进行微调,优化检索性能
前缀感知编码
通过添加'query:'和'passage:'前缀区分查询和段落编码,提升检索准确性

模型能力

文本向量化
语义相似度计算
信息检索
跨语言检索

使用案例

搜索引擎
波兰语文档检索
根据用户查询从波兰语文档库中检索最相关内容
在PIRB基准测试中达到NDCG@10值58.30
问答系统
波兰语FAQ匹配
将用户问题与常见问题库进行语义匹配