S

Sentence Bert Base Ja Mean Tokens V2

由 sonoisa 开发
这是一个日语专用的Sentence-BERT模型,相比版本1采用了更优的损失函数进行训练优化,准确率提升了1.5至2个百分点。
下载量 108.15k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

日语版Sentence-BERT模型,用于生成日语句子的嵌入向量,适用于句子相似度计算、特征提取等任务。

模型特点

优化的损失函数
使用MultipleNegativesRankingLoss进行训练,相比版本1准确率提升1.5-2%
日语专用
专门针对日语文本优化的Sentence-BERT模型
基于高质量预训练模型
基于cl-tohoku/bert-base-japanese-whole-word-masking构建

模型能力

日语句子嵌入
句子相似度计算
特征提取

使用案例

文本相似度
语义搜索
通过计算句子嵌入向量相似度实现语义搜索
重复内容检测
识别不同表达但语义相似的句子
信息检索
文档聚类
基于句子嵌入对文档进行聚类分析