M

Mmlw Retrieval Roberta Base

由 sdadas 开发
MMLW(我必须得到更好的消息)是波兰语的神经文本编码器,针对信息检索任务进行了优化,能够将查询和段落转换为768维向量。
下载量 408
发布时间 : 10/18/2023

模型简介

该模型是一个波兰语的句子转换器,主要用于特征提取和句子相似度计算,特别适用于信息检索任务。

模型特点

多语言知识蒸馏
通过多语言知识蒸馏方法在6000万波兰语-英语文本对上训练,使用英语FlagEmbeddings(BGE)作为教师模型。
对比损失微调
在波兰MS MARCO训练集上使用对比损失进行微调,采用大批量尺寸提高训练效率。
特定前缀要求
编码文本时需要使用特定前缀和后缀,查询需以'查询: '前缀开头。

模型能力

文本编码
句子相似度计算
信息检索

使用案例

信息检索
健康信息检索
根据健康相关查询检索最相关的答案
能够准确匹配健康饮食建议
政治信息检索
检索与政治承诺相关的信息
可识别政治相关文本
AIbase
智启未来,您的人工智能解决方案智库
简体中文