T

Turkish Base Bert Uncased Mean Nli Stsb Tr

由 atasoglu 开发
这是一个基于土耳其语BERT模型的句子嵌入模型,适用于句子相似度计算和语义搜索任务。
下载量 744
发布时间 : 2/17/2024
模型介绍
内容详情
替代品

模型简介

该模型能将土耳其语句子和段落映射到768维稠密向量空间,适用于聚类或语义搜索等任务。基于ytu-ce-cosmos/turkish-base-bert-uncased微调,训练数据集包括nli_tr和emrecan/stsb-mt-turkish。

模型特点

土耳其语优化
专门针对土耳其语进行优化和微调,适合处理土耳其语文本。
句子嵌入
能将句子和段落映射到768维稠密向量空间,保留语义信息。
小写处理
需要手动将输入文本转为小写,包括特殊字符如'I'转为'ı'。
高性能
在STS-b测试集上表现出色,余弦相似度Pearson达到0.8401。

模型能力

句子相似度计算
语义搜索
文本聚类
特征提取

使用案例

信息检索
语义搜索
用于构建土耳其语语义搜索引擎,根据查询返回语义相似的文档。
提高搜索结果的相关性
文本分析
文档聚类
对土耳其语文档进行自动聚类,发现相似文档组。
提高文档组织效率