U

USER2 Base

由 deepvk 开发
USER2是新一代俄语通用句子编码器,支持长达8,192个token的上下文句子表征,基于RuModernBERT-base构建,针对检索和语义任务优化
下载量 1,101
发布时间 : 2/25/2025
模型介绍
内容详情
替代品

模型简介

专为俄语设计的通用句子编码器,支持长上下文表征和套娃表征学习(MRL)技术,适用于检索和各类语义任务

模型特点

长上下文支持
支持处理长达8,192个token的文本,适合长文档检索和分析
套娃表征学习(MRL)
支持维度裁剪技术,可在质量损失最小的情况下缩减嵌入维度
多任务前缀优化
采用任务特定前缀设计,针对不同场景(分类/聚类/检索)优化表征
高效参数设计
1.49亿参数的基础版在性能与效率间取得良好平衡

模型能力

文本嵌入生成
语义相似度计算
文档检索
文本聚类
多标签分类
重排序任务

使用案例

信息检索
长文档检索
在长文档集合中查找相关信息
在MLDR-rus测试中nDCG@10达54.17
问答系统
匹配问题与候选答案
文本分析
文本聚类
将相似文档分组
MTEB-rus聚类任务得分59.22
语义相似度计算
衡量文本间语义关系
MTEB-rus相似度任务得分74.28