R

Rubert Tiny2

由 cointegrated 开发
基于BERT的小型俄语编码器,能生成高质量的句子嵌入向量
下载量 585.48k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

这是rubert-tiny的升级版本,专注于俄语处理,可用于生成句子嵌入向量或针对下游任务进行微调。

模型特点

扩展词汇表
词汇表从29564个词元扩展到83828个,提高了模型的表现力
长序列支持
支持的最大序列长度从512扩展到2048
高质量句子嵌入
句子嵌入向量更接近LaBSE的表现
优化片段嵌入
在NLI任务上进行了调优,具有实际意义的片段嵌入
专注俄语处理
该模型专门针对俄语优化

模型能力

生成句子嵌入向量
短文本分类
句子相似度计算
填充掩码

使用案例

文本处理
短文本分类
使用KNN等方法对短文本进行分类
语义搜索
基于句子嵌入向量进行语义相似性搜索