许可证: mit
语言:
- tr
基础模型:
- intfloat/multilingual-e5-large-instruct
标签:
- 土耳其语
- turkish
- 检索
- 段落检索
管道标签: 特征提取
Turkish-e5-Large
这是基于intfloat/multilingual-e5-large-instruct模型,使用多种土耳其语数据集进行微调的版本。
推荐指令: "给定一个土耳其语搜索查询,检索最能回答该查询的相关土耳其语段落"
使用示例
from sentence_transformers import SentenceTransformer
def get_detailed_instruct(task_description: str, query: str) -> str:
return f'指令: {task_description}\n查询: {query}'
task = '给定一个土耳其语搜索查询,检索最能回答该查询的相关土耳其语段落'
queries = [
get_detailed_instruct(task, '简单的早餐食谱是什么?'),
get_detailed_instruct(task, '户外散步的最佳时间是什么时候?')
]
documents = [
"为了精力充沛地开始一天,用燕麦片、牛奶和水果准备的简单早餐既方便又营养。如果再加一些蜂蜜和肉桂,味道会更好。",
"早晨时段,特别是07:00到10:00之间,是户外散步的理想时间。此时天气更凉爽、空气更清新,而且阳光有助于调节身体节律。",
"土耳其最长的河流是克孜勒河。它发源于锡瓦斯,流入黑海,全长约1,355公里。"
]
input_texts = queries + documents
model = SentenceTransformer('ytu-ce-cosmos/turkish-e5-large')
embeddings = model.encode(input_texts, convert_to_tensor=True, normalize_embeddings=True)
scores = (embeddings[:2] @ embeddings[2:].T) * 100
for i, query in enumerate(queries):
print(f"\n查询: {query.split('查询: ')[-1]}")
for j, doc in enumerate(documents):
print(f" → 文档 {j+1} 得分: {scores[i][j]:.2f}")
print(f" 内容: {doc[:80]}...")
"""
查询: 简单的早餐食谱是什么?
→ 文档 1 得分: 67.36
内容: 为了精力充沛地开始一天,用燕麦片、牛奶和水果准备的简单早餐既方便又营养...
→ 文档 2 得分: 31.68
内容: 早晨时段,特别是07:00到10:00之间,是户外散步的理想时间。此时天气更凉爽...
→ 文档 3 得分: 7.06
内容: 土耳其最长的河流是克孜勒河。它发源于锡瓦斯,流入黑海,全长约1,355公里...
查询: 户外散步的最佳时间是什么时候?
→ 文档 1 得分: 28.14
内容: 为了精力充沛地开始一天,用燕麦片、牛奶和水果准备的简单早餐既方便又营养...
→ 文档 2 得分: 78.02
内容: 早晨时段,特别是07:00到10:00之间,是户外散步的理想时间。此时天气更凉爽...
→ 文档 3 得分: 18.70
内容: 土耳其最长的河流是克孜勒河。它发源于锡瓦斯,流入黑海,全长约1,355公里...
"""
引用
@article{kesgin2023developing,
title={开发与评估小型到中型土耳其语BERT模型},
author={Kesgin, Himmet Toprak and Yuce, Muzaffer Kaan and Amasyali, Mehmet Fatih},
journal={arXiv预印本 arXiv:2307.14134},
year={2023}
}
联系方式
伊斯坦布尔理工大学计算机工程系COSMOS人工智能研究小组
https://cosmos.yildiz.edu.tr/
cosmos@yildiz.edu.tr