N

Nase

由 aiana94 开发
NaSE是一个新闻领域专用的多语言句子编码器,基于LaBSE进行领域专业化训练,支持100+种语言的句子嵌入和相似度计算。
下载量 14
发布时间 : 6/17/2024
模型介绍
内容详情
替代品

模型简介

该模型是一个领域适配的多语言句子编码器,专门针对新闻文本优化,通过去噪自编码和机器翻译目标训练,适用于句子相似度、信息检索等任务。

模型特点

新闻领域适配
通过Polynews和PolyNewsParallel数据集进行领域专业化训练,优化新闻文本的语义表示。
多语言支持
支持100+种语言的句子嵌入,包括多种低资源语言,采用语言分布平滑采样策略。
双重训练目标
结合去噪自编码(DAE)和机器翻译(MT)目标,提升跨语言语义捕获能力。

模型能力

多语言句子嵌入
跨语言句子相似度计算
新闻文本语义检索
多语言文本聚类

使用案例

信息检索
跨语言新闻推荐
利用句子嵌入计算不同语言新闻的语义相似度,实现跨语言内容推荐。
文本分析
多语言新闻聚类
对全球新闻进行语义聚类,识别跨语言的相似事件报道。