🚀 基于dbmdz/bert-base-turkish-uncased的句子转换器
这是一个基于 sentence-transformers 的模型,它在 dbmdz/bert-base-turkish-uncased 的基础上,于 cleaned_turkish_embedding_model_training_data_colab 数据集上进行了微调。该模型能够将句子和段落映射到一个768维的密集向量空间,可用于语义文本相似度、语义相关任务。
🚀 快速开始
此模型可用于语义文本相似度等任务,以下是一些使用示例:
基础用法
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('your_model_name')
sentences = ['这是一个示例句子', '这是另一个示例句子']
embeddings = model.encode(sentences)
print(embeddings)
高级用法
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('your_model_name')
sentence_list = ['句子1', '句子2', '句子3']
batch_size = 32
for i in range(0, len(sentence_list), batch_size):
batch = sentence_list[i:i+batch_size]
embeddings = model.encode(batch)
print(embeddings)
✨ 主要特性
- 微调模型:基于
dbmdz/bert-base-turkish-uncased
进行微调,能更好地适应特定的土耳其语任务。
- 向量映射:将句子和段落映射到768维的密集向量空间,方便进行语义相似度计算。
- 多任务适用:可用于语义文本相似度、语义相关任务等。
📦 安装指南
安装 sentence-transformers
库:
pip install sentence-transformers
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
基于dbmdz/bert-base-turkish-uncased的句子转换器 |
训练数据 |
trmteb/cleaned_turkish_embedding_model_training_data_colab |
指标信息
该模型使用了以下评估指标:
cosine_accuracy
cosine_accuracy_threshold
cosine_f1
cosine_f1_threshold
cosine_precision
cosine_recall
cosine_ap
cosine_mcc
模型结果
任务类型 |
数据集 |
指标类型 |
指标值 |
二分类 |
dev |
Cosine Accuracy |
0.9999994108754744 |
二分类 |
dev |
Cosine Accuracy Threshold |
-0.11720609664916992 |
二分类 |
dev |
Cosine F1 |
0.9999997054376504 |
二分类 |
dev |
Cosine F1 Threshold |
-0.11720609664916992 |
二分类 |
dev |
Cosine Precision |
1.0 |
二分类 |
dev |
Cosine Recall |
0.9999994108754744 |
二分类 |
dev |
Cosine Ap |
1.0 |
二分类 |
dev |
Cosine Mcc |
0.0 |
🔧 技术细节
此模型基于 sentence-transformers
库,在 dbmdz/bert-base-turkish-uncased
预训练模型的基础上,使用 CachedMultipleNegativesRankingLoss
损失函数,在 trmteb/cleaned_turkish_embedding_model_training_data_colab
数据集上进行了微调。通过微调,模型能够更好地学习到土耳其语句子和段落的语义信息,从而在语义文本相似度等任务上取得更好的性能。
在微调过程中,使用了多种评估指标来监控模型的性能,如余弦相似度相关的准确率、F1值、精确率、召回率等。这些指标能够全面地评估模型在语义文本相似度任务上的表现。
📄 许可证
文档中未提及许可证相关信息。若有需要,请进一步查阅相关资料。