🚀 MMLW-retrieval-roberta-large
MMLW(必须有更好的消息)是用于波兰语的神经文本编码器。该模型针对信息检索任务进行了优化,能够将查询和段落转换为 1024 维的向量。
🚀 快速开始
MMLW(必须有更好的消息)是用于波兰语的神经文本编码器。此模型针对信息检索任务进行了优化,它可以将查询和段落转换为 1024 维向量。
该模型采用两步流程开发:
- 第一步,使用波兰语 RoBERTa 检查点进行初始化,然后在包含 6000 万对波兰语 - 英语文本的多样化语料库上,采用多语言知识蒸馏方法进行训练。我们使用英语 FlagEmbeddings (BGE)作为蒸馏的教师模型。
- 第二步,在波兰语 MS MARCO训练分割集上,使用对比损失对得到的模型进行微调。为了提高对比训练的效率,我们使用了较大的批量大小——小型模型为 1152,基础模型为 768,大型模型为 288。微调在由 12 个 A100 GPU 组成的集群上进行。
⚠️ 重要提示
2023 - 12 - 26:我们已将模型更新到新版本,结果有所改进。你仍然可以使用 v1 标签下载之前的版本:AutoModel.from_pretrained("sdadas/mmlw-retrieval-roberta-large", revision="v1")
✨ 主要特性
- 专为波兰语设计的神经文本编码器。
- 针对信息检索任务进行优化。
- 能够将查询和段落转换为 1024 维向量。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
query_prefix = "zapytanie: "
answer_prefix = ""
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-retrieval-roberta-large")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)
best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
📚 详细文档
评估结果
该模型在波兰语信息检索基准测试中实现了 NDCG@10 为 58.46 的成绩。详细结果请参阅 PIRB 排行榜。
🔧 技术细节
此模型的开发采用了两步流程:
- 第一步,使用波兰语 RoBERTa 检查点进行初始化,然后在包含 6000 万对波兰语 - 英语文本的多样化语料库上,采用多语言知识蒸馏方法进行训练。我们使用英语 FlagEmbeddings (BGE)作为蒸馏的教师模型。
- 第二步,在波兰语 MS MARCO训练分割集上,使用对比损失对得到的模型进行微调。为了提高对比训练的效率,我们使用了较大的批量大小——小型模型为 1152,基础模型为 768,大型模型为 288。微调在由 12 个 A100 GPU 组成的集群上进行。
📄 许可证
本模型采用 apache - 2.0
许可证。
致谢
该模型的训练得到了格但斯克工业大学在 TASK 中心倡议下提供的 A100 GPU 集群的支持。
引用
@article{dadas2024pirb,
title={{PIRB}: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods},
author={Sławomir Dadas and Michał Perełkiewicz and Rafał Poświata},
year={2024},
eprint={2402.13350},
archivePrefix={arXiv},
primaryClass={cs.CL}
}