M

Moco Sentencebertv2.0

由 bongsoo 开发
基于韩语和英语优化的句子嵌入模型,支持语义相似度计算和文本特征提取
下载量 17
发布时间 : 9/19/2022
模型介绍
内容详情
替代品

模型简介

该模型是基于multilingual BERT改进的句子嵌入模型,通过师生蒸馏训练优化,适用于韩语和英语的句子相似度计算、语义搜索和文本聚类任务。

模型特点

双语优化
专门针对韩语和英语进行优化,在两种语言的语义理解任务中表现优异
知识蒸馏
采用paraphrase-multilingual-mpnet-base-v2作为教师模型进行蒸馏训练,提升模型性能
扩展词汇
在原始multilingual BERT基础上新增32,989个词汇,总词汇量达152,537个
高效推理
支持最大128 token长度输入,在单GPU上推理显存占用约9GB

模型能力

句子嵌入生成
语义相似度计算
文本特征提取
跨语言语义匹配

使用案例

信息检索
相似问题匹配
在问答系统中查找与用户提问语义相似的问题
在korsts测试集上达到0.824的余弦相似度得分
内容推荐
相关文章推荐
基于内容语义相似度推荐相关文章或新闻
多语言应用
韩英跨语言搜索
支持韩语和英语之间的跨语言语义匹配
在stsb_multi_mt数据集上达到0.843的相似度得分