L

Labse En Ru

由 cointegrated 开发
基于LaBSE模型精简的英语和俄语专用版本,保留原始嵌入质量的同时大幅减小模型体积
下载量 375.34k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是LaBSE的精简版本,仅支持英语和俄语,词汇量缩减至原版的10%,参数量保留27%,完全保持原始嵌入向量质量,适用于句子相似度计算等任务

模型特点

双语专用精简
仅保留英语和俄语词元,词汇量缩减至原版10%,模型体积大幅减小
质量无损压缩
在缩减模型规模的同时,完全保持英语和俄语嵌入向量的原始质量
多语言适配方案
提供可适配其他语言组合的裁剪方案(参考提供的Colab笔记本)

模型能力

生成句子嵌入向量
计算句子相似度
支持英语和俄语文本处理

使用案例

文本相似度
跨语言文档检索
在英语和俄语文档间建立语义关联,实现跨语言检索
保持与原始LaBSE相当的检索准确率
双语内容匹配
识别英语和俄语内容的语义对应关系
特征提取
下游任务特征输入
为分类、聚类等任务提供预训练嵌入特征