turkish-e5-large开源土耳其语检索模型 - 免费高效实现段落精准检索

首页

Turkish E5 Large

由 ytu-ce-cosmos 开发

基于intfloat/multilingual-e5-large-instruct模型微调的土耳其语检索模型，专注于土耳其语段落检索任务。

文本嵌入

Safetensors

开源协议:MIT #土耳其语检索 #多语言段落匹配 #指令增强特征提取

下载量 2,327

发布时间 : 4/11/2025

模型简介

这是一个针对土耳其语优化的特征提取模型，专门用于检索与土耳其语搜索查询最相关的段落。

模型特点

土耳其语优化

专门针对土耳其语进行微调，提供更准确的土耳其语文本检索能力

指令增强

支持指令格式输入，能更好地理解检索任务的上下文

多领域适用

可应用于各种领域的土耳其语信息检索需求

模型能力

土耳其语文本特征提取

语义相似度计算

段落检索

使用案例

信息检索

食谱检索

根据用户查询检索相关食谱信息

能准确匹配与早餐食谱相关的段落

健康建议检索

检索与健康生活方式相关的建议

能准确识别户外活动最佳时间的建议

知识检索

地理知识检索

检索土耳其地理相关信息

能识别与土耳其河流相关的知识段落

🚀 土耳其语-e5-大模型

这是基于模型 intfloat/multilingual-e5-large-instruct 使用各种土耳其语数据集进行微调后的版本。该模型可根据土耳其语搜索查询，检索出能最佳回答该查询的相关土耳其语文本段落。

模型信息

属性	详情
模型类型	特征提取
基础模型	intfloat/multilingual-e5-large-instruct
标签	土耳其语、检索、段落检索

🚀 快速开始

本模型是 intfloat/multilingual-e5-large-instruct 的微调版本，使用了多种土耳其语数据集进行微调。

推荐指令：“给定一个土耳其语搜索查询，检索用土耳其语编写的、最能回答该查询的相关段落”

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer

def get_detailed_instruct(task_description: str, query: str) -> str:
    return f'Instruct: {task_description}\nQuery: {query}'

# 任务：根据土耳其语搜索查询，检索能最佳回答该查询的相关土耳其语文本段落
task = 'Given a Turkish search query, retrieve relevant passages written in Turkish that best answer the query'

queries = [
    get_detailed_instruct(task, 'Kolay bir kahvaltı tarifi nedir?'),
    get_detailed_instruct(task, 'Dış mekan yürüyüşü için en iyi saat hangisidir?')
]

documents = [
    "Güne enerjik başlamak için yulaf ezmesi, süt ve meyveyle hazırlanan basit bir kahvaltı hem pratik hem de besleyicidir. Üzerine biraz bal ve tarçın eklerseniz lezzeti artar.",
    "Sabah saatleri, özellikle 07:00 ile 10:00 arası, açık havada yürüyüş yapmak için idealdir. Bu saatlerde hava daha serin ve temiz olur, ayrıca gün ışığı vücut ritmini destekler.",
    "Türkiye'nin en uzun nehri Kızılırmak'tır. Sivas'tan doğar, Karadeniz'e dökülür ve yaklaşık 1.355 kilometre uzunluğundadır."
]

input_texts = queries + documents

model = SentenceTransformer('ytu-ce-cosmos/turkish-e5-large')

embeddings = model.encode(input_texts, convert_to_tensor=True, normalize_embeddings=True)
scores = (embeddings[:2] @ embeddings[2:].T) * 100

for i, query in enumerate(queries):
    print(f"\nSorgu: {query.split('Query: ')[-1]}")
    for j, doc in enumerate(documents):
        print(f"   → Belge {j+1} Skoru: {scores[i][j]:.2f}")
        print(f"     İçerik: {doc[:80]}...")

"""
Sorgu: Kolay bir kahvaltı tarifi nedir?
   → Belge 1 Skoru: 67.36
     İçerik: Güne enerjik başlamak için yulaf ezmesi, süt ve meyveyle hazırlanan basit bir ka...
   → Belge 2 Skoru: 31.68
     İçerik: Sabah saatleri, özellikle 07:00 ile 10:00 arası, açık havada yürüyüş yapmak için...
   → Belge 3 Skoru: 7.06
     İçerik: Türkiye'nin en uzun nehri Kızılırmak'tır. Sivas'tan doğar, Karadeniz'e dökülür v...

Sorgu: Dış mekan yürüyüşü için en iyi saat hangisidir?
   → Belge 1 Skoru: 28.14
     İçerik: Güne enerjik başlamak için yulaf ezmesi, süt ve meyveyle hazırlanan basit bir ka...
   → Belge 2 Skoru: 78.02
     İçerik: Sabah saatleri, özellikle 07:00 ile 10:00 arası, açık havada yürüyüş yapmak için...
   → Belge 3 Skoru: 18.70
     İçerik: Türkiye'nin en uzun nehri Kızılırmak'tır. Sivas'tan doğar, Karadeniz'e dökülür v...
"""

📚 引用信息

@article{kesgin2023developing,
  title={Developing and Evaluating Tiny to Medium-Sized Turkish BERT Models},
  author={Kesgin, Himmet Toprak and Yuce, Muzaffer Kaan and Amasyali, Mehmet Fatih},
  journal={arXiv preprint arXiv:2307.14134},
  year={2023}
}