B

Bi Encoder Msmarco Bert Base German

由 PM-AI 开发
基于德语版MSMARCO数据集训练的语义搜索模型,采用困难负样本和Margin MSE损失函数优化
下载量 20.53k
发布时间 : 11/23/2022
模型介绍
内容详情
替代品

模型简介

该模型专为德语语义搜索和文档检索设计,能够根据查询找到相关段落。基于机器翻译的德语MSMARCO数据集训练,结合先进训练技术实现高效检索。

模型特点

困难负样本训练
采用多系统检索结果作为负样本,提升模型区分相关段落的能力
Margin MSE损失函数
通过交叉编码器指导双编码器训练,优化相似度间距计算
非对称搜索优化
专门针对查询-段落非对称搜索场景进行优化
跨领域适用性
基于MSMARCO多领域数据训练,适应不同领域的检索需求

模型能力

语义搜索
段落检索
查询-段落匹配
跨领域信息检索

使用案例

信息检索
问答系统
根据用户问题检索最相关的答案段落
在germandpr-beir测试集上NDCG@10达0.7196
文档搜索
从大型文档库中定位相关内容
优于传统BM25算法约34%
企业应用
知识库检索
在企业知识库中快速定位相关信息