S

Sup Simcse Ja Base

由 cl-nagoya 开发
基于监督式SimCSE方法微调的日语句子嵌入模型,适用于句子相似度计算和特征提取任务。
下载量 3,027
发布时间 : 10/2/2023
模型介绍
内容详情
替代品

模型简介

该模型是基于BERT架构的日语句子嵌入模型,通过监督式SimCSE方法在JSNLI数据集上微调,能够生成高质量的句子嵌入表示,适用于句子相似度计算、信息检索等自然语言处理任务。

模型特点

监督式SimCSE微调
采用监督式SimCSE方法进行微调,提升了句子嵌入的质量和区分度。
日语优化
基于日语BERT模型(cl-tohoku/bert-base-japanese-v3)构建,专门针对日语文本优化。
高效池化策略
采用CLS标记池化策略,训练时额外添加MLP层,增强句子表示能力。

模型能力

句子嵌入生成
句子相似度计算
日语文本特征提取
信息检索

使用案例

自然语言处理
语义搜索
用于构建日语语义搜索引擎,根据查询句子的语义相似度检索相关文档。
文本聚类
对日语文本进行聚类分析,发现相似内容或主题。
问答系统
作为问答系统的组件,用于匹配问题和相关知识片段。