turkish - colbert开源土耳其语段落检索模型，实现土耳其语精准段落检索

首页

Turkish Colbert

由 ytu-ce-cosmos 开发

基于ColBERT架构的土耳其语段落检索模型，在土耳其语翻译版MS MARCO数据集上微调

文本嵌入

Safetensors

开源协议:MIT #土耳其语检索 #段落相似度 #科学文献检索

下载量 1,724

发布时间 : 12/3/2024

模型简介

这是一个基于ColBERT架构的土耳其语段落检索模型，专门用于土耳其语的段落检索任务。模型在土耳其语翻译版MS MARCO数据集的50万组三元数据上进行了微调。

模型特点

土耳其语优化

专门针对土耳其语优化的段落检索模型，基于土耳其语基础BERT模型微调

高效检索

采用ColBERT架构，提供高效的段落检索能力

大小写处理

提供特殊的大小写处理方案，解决土耳其语特有的'I'字符问题

模型能力

土耳其语段落检索

句子相似度计算

文档索引与搜索

使用案例

信息检索

科学文献检索

从科学文献数据库中检索相关信息

在Scifact-tr数据集上达到48.38的R@1召回率

百科知识检索

从百科知识库中检索相关信息

在WikiRAG-TR数据集上达到31.21的R@1召回率

🚀 Turkish - ColBERT

这是一个基于 ColBERT 架构的土耳其语段落检索模型。该模型在土耳其语翻译版本的 [MS MARCO 数据集](https://huggingface.co/datasets/parsak/msmarco - tr) 的 500k 三元组（查询、正例段落、负例段落）上对 [Cosmos Turkish Base BERT](https://huggingface.co/ytu - ce - cosmos/turkish - base - bert - uncased) 模型进行了微调。

🚀 快速开始

此模型可用于土耳其语段落检索任务，以下是使用前的准备和使用示例。

✨ 主要特性

基于 ColBERT 架构，适用于土耳其语段落检索。
在土耳其语翻译的 MS MARCO 数据集上微调，具有较好的检索性能。

📦 安装指南

!pip install ragatouille

💻 使用示例

基础用法

from ragatouille import RAGPretrainedModel

rag = RAGPretrainedModel.from_pretrained("ytu-ce-cosmos/turkish-colbert")

docs = [
    "Marie Curie, radyoaktivite üzerine yaptığı çalışmalarla bilim dünyasına büyük katkılar sağlamıştır. Polonyum ve radyum elementlerini keşfetmiştir. İki farklı dalda Nobel Ödülü alan ilk kişi olmuştur.",
    "Isaac Newton, fizik ve matematik alanında yaptığı çalışmalarla bilinir. Yerçekimi teorisi ve hareket yasaları, bilim dünyasında çığır açmıştır. Ayrıca, matematiksel analiz üzerinde de önemli katkıları vardır.",
    "Albert Einstein, izafiyet teorisini geliştirerek modern fiziğin temellerini atmıştır. 1921 yılında Nobel Fizik Ödülü'nü kazanmıştır. Kütle-enerji eşitliği (E=mc²) onun en ünlü formülüdür.",
    "Alexander Fleming, 1928 yılında penisilini keşfederek modern tıpta devrim yaratmıştır. Bu keşfi sayesinde 1945 yılında Nobel Tıp Ödülü kazanmıştır. Fleming'in çalışmaları antibiyotiklerin gelişimine öncülük etmiştir.",
    "Nikola Tesla, alternatif akım (AC) sistemini geliştirmiştir. Elektrik mühendisliği alanında devrim niteliğinde çalışmalar yapmıştır. Kablosuz enerji aktarımı üzerine projeleriyle tanınır."
]

docs = [doc.replace("I", "ı").lower() for doc in docs]

rag.index(docs, index_name="sampleTest")

query = "Birden fazla Nobel Ödülü alan bilim insanı kimdir?"
query = query.replace("I", "ı").lower()

results = rag.search(query, k= 1)
print(results[0]['content']) # "marie curie, radyoaktivite üzerine yaptığı çalışmalarla bilim dünyasına büyük katkılar sağlamıştır. polonyum ve radyum elementlerini keşfetmiştir. i̇ki farklı dalda nobel ödülü alan ilk kişi olmuştur."

高级用法

目前文档中未提供高级用法示例，若有更多复杂场景需求，可根据模型特性进一步探索。

📚 详细文档

评估结果

属性	详情
模型类型	基于 ColBERT 架构的土耳其语段落检索模型
训练数据	土耳其语翻译版本的 [MS MARCO 数据集](https://huggingface.co/datasets/parsak/msmarco - tr) 的 500k 三元组（查询、正例段落、负例段落）

数据集	R@1	R@5	R@10	MRR@10
[Scifact - tr](https://huggingface.co/datasets/AbdulkaderSaoud/scifact - tr)	48.38	67.85	75.52	56.88
[WikiRAG - TR](https://huggingface.co/datasets/Metin/WikiRAG - TR)	31.21	75.63	79.63	49.08

致谢

本研究得到了 Google 的 TensorFlow Research Cloud（TFRC）的云 TPU 支持。感谢提供对 TFRC 的访问权限 ❤️
感谢 Hugging Face 团队的慷慨支持，使得能够从他们的 S3 存储中下载模型 🤗

引用信息

@article{kesgin2023developing,
  title={Developing and Evaluating Tiny to Medium - Sized Turkish BERT Models},
  author={Kesgin, Himmet Toprak and Yuce, Muzaffer Kaan and Amasyali, Mehmet Fatih},
  journal={arXiv preprint arXiv:2307.14134},
  year={2023}
}