M

Mmlw Retrieval Roberta Large

由 sdadas 开发
MMLW(我必须得到更好的消息)是波兰语的神经文本编码器,针对信息检索任务进行了优化。
下载量 237.90k
发布时间 : 10/18/2023

模型简介

该模型可将查询和段落转换为1024维向量,主要用于波兰语的信息检索任务。采用两步训练流程:首先通过多语言知识蒸馏方法训练,然后在波兰版MS MARCO数据集上微调。

模型特点

多语言知识蒸馏
使用6000万条波英双语文本对和英文FlagEmbeddings作为教师模型进行训练
对比损失微调
在波兰版MS MARCO数据集上通过对比损失进行微调,采用大批量训练策略
特定前缀处理
编码文本时需添加特定前缀/后缀,查询内容前必须添加'zapytanie:'前缀

模型能力

文本编码
句子相似度计算
信息检索

使用案例

信息检索
问答系统
用于构建波兰语问答系统,匹配问题与最相关的答案
能准确识别与查询最相关的答案
文档检索
从大量波兰语文档中检索与查询最相关的文档
AIbase
智启未来,您的人工智能解决方案智库
简体中文