turkish-embedding-model开源模型 - 实现土耳其语句子段落映射，用于语义相似度任务

首页

Turkish Embedding Model

由 trmteb 开发

这是一个基于sentence-transformers的土耳其语句子嵌入模型，能够将句子和段落映射到768维向量空间，适用于语义文本相似度等任务。

文本嵌入 #土耳其语语义向量 #768维稠密向量 #句子相似度计算

下载量 1,418

发布时间 : 5/19/2025

模型简介

该模型在dbmdz/bert-base-turkish-uncased基础上微调，专门用于处理土耳其语文本，支持语义相似度计算和相关任务。

模型特点

土耳其语优化

专门针对土耳其语进行微调，能更好地处理土耳其语文本的语义特征。

高维向量表示

将文本映射到768维密集向量空间，保留丰富的语义信息。

多任务适用

支持多种语义相关任务，包括文本相似度计算、信息检索等。

模型能力

语义文本相似度计算

土耳其语文本嵌入

语义检索

文本聚类

使用案例

信息检索

相似文档检索

在文档库中查找语义相似的土耳其语文档

高准确度的相似文档匹配

文本分析

文本聚类

将土耳其语文本按语义相似度分组

有效的主题聚类

🚀 基于dbmdz/bert-base-turkish-uncased的句子转换器

这是一个基于 sentence-transformers 的模型，它在 dbmdz/bert-base-turkish-uncased 的基础上，于 cleaned_turkish_embedding_model_training_data_colab 数据集上进行了微调。该模型能够将句子和段落映射到一个768维的密集向量空间，可用于语义文本相似度、语义相关任务。

🚀 快速开始

此模型可用于语义文本相似度等任务，以下是一些使用示例：

基础用法

# 使用示例代码保持不变
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('your_model_name')
sentences = ['这是一个示例句子', '这是另一个示例句子']
embeddings = model.encode(sentences)
print(embeddings)

高级用法

# 高级场景说明 - 中文
# 当需要处理大量文本时，可以使用批量处理的方式提高效率
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('your_model_name')
sentence_list = ['句子1', '句子2', '句子3']
batch_size = 32
for i in range(0, len(sentence_list), batch_size):
    batch = sentence_list[i:i+batch_size]
    embeddings = model.encode(batch)
    # 处理当前批次的嵌入向量
    print(embeddings)

✨ 主要特性

微调模型：基于 dbmdz/bert-base-turkish-uncased 进行微调，能更好地适应特定的土耳其语任务。
向量映射：将句子和段落映射到768维的密集向量空间，方便进行语义相似度计算。
多任务适用：可用于语义文本相似度、语义相关任务等。

📦 安装指南

安装 sentence-transformers 库：

pip install sentence-transformers

📚 详细文档

模型信息

属性	详情
模型类型	基于dbmdz/bert-base-turkish-uncased的句子转换器
训练数据	trmteb/cleaned_turkish_embedding_model_training_data_colab

指标信息

该模型使用了以下评估指标：

cosine_accuracy
cosine_accuracy_threshold
cosine_f1
cosine_f1_threshold
cosine_precision
cosine_recall
cosine_ap
cosine_mcc

模型结果

任务类型	数据集	指标类型	指标值
二分类	dev	Cosine Accuracy	0.9999994108754744
二分类	dev	Cosine Accuracy Threshold	-0.11720609664916992
二分类	dev	Cosine F1	0.9999997054376504
二分类	dev	Cosine F1 Threshold	-0.11720609664916992
二分类	dev	Cosine Precision	1.0
二分类	dev	Cosine Recall	0.9999994108754744
二分类	dev	Cosine Ap	1.0
二分类	dev	Cosine Mcc	0.0

🔧 技术细节

此模型基于 sentence-transformers 库，在 dbmdz/bert-base-turkish-uncased 预训练模型的基础上，使用 CachedMultipleNegativesRankingLoss 损失函数，在 trmteb/cleaned_turkish_embedding_model_training_data_colab 数据集上进行了微调。通过微调，模型能够更好地学习到土耳其语句子和段落的语义信息，从而在语义文本相似度等任务上取得更好的性能。

在微调过程中，使用了多种评估指标来监控模型的性能，如余弦相似度相关的准确率、F1值、精确率、召回率等。这些指标能够全面地评估模型在语义文本相似度任务上的表现。