M

Moco Sentencedistilbertv2.0

由 bongsoo 开发
这是一个基于sentence-transformers的韩英双语句子嵌入模型,可将句子映射到768维向量空间,适用于语义搜索和聚类任务。
下载量 39
发布时间 : 9/5/2022
模型介绍
内容详情
替代品

模型简介

该模型基于mdistilbertV1.1改进,使用3.2M句子的moco-corpus训练,通过STS师生蒸馏训练而成,支持韩语和英语的句子相似度计算。

模型特点

双语支持
同时支持韩语和英语的句子嵌入表示
高效蒸馏
通过师生蒸馏训练提高模型性能
大规模训练
使用3.2M句子的moco-corpus进行训练
优化词汇
词汇量扩展至164,314个,比原模型增加17,870个新词汇

模型能力

句子嵌入
语义相似度计算
文本聚类
跨语言检索

使用案例

信息检索
跨语言文档检索
在韩语和英语混合文档库中查找语义相似的文档
可有效识别不同语言间语义相似的文档
问答系统
问题匹配
匹配用户问题与知识库中的相似问题
如示例中所示,能准确识别'韩国的首都是?'与'首尔是韩国的首都'的语义相似性
内容推荐
相似内容推荐
基于内容语义相似性推荐相关文章或产品