J

Jacolbert

由 bclavie 开发
JaColBERT是基于ColBERT的首个日语专用文档检索模型,具有强大的域外泛化能力。
下载量 859
发布时间 : 12/25/2023
模型介绍
内容详情
替代品

模型简介

JaColBERT是首个基于ColBERT的日语专用文档检索模型,通过将文档表示为嵌入向量集合,以较低计算成本获得卓越性能和强大的域外泛化能力。

模型特点

强大的域外泛化能力
尽管在评估数据集上属于域外数据,JaColBERT仍超越了先前常用的日语文档检索模型,并接近多语言模型的性能。
高效训练
仅基于单一数据集的1000万组三元组训练而成,所需数据量远少于稠密嵌入模型。
计算效率高
通过将文档表示为嵌入向量集合,以远低于交叉编码器的计算成本获得卓越性能。

模型能力

日语文档检索
句子相似度计算
语义搜索

使用案例

信息检索
问答系统
用于构建日语问答系统,快速检索相关文档回答问题。
在JSQuAD数据集上R@1达到0.906
文档搜索
用于日语文档的语义搜索,提高搜索相关性。
在MIRACL和MrTyDi数据集上表现优异