U

USER2 Small

由 deepvk 开发
USER2是新一代俄语通用句子编码器,专为支持长达8,192个token的长上下文句子表征而设计。
下载量 1,409
发布时间 : 2/19/2025
模型介绍
内容详情
替代品

模型简介

基于RuModernBERT编码器构建,针对检索和语义任务进行微调,支持套娃表征学习(MRL)技术,可缩减嵌入维度而最小化质量损失。

模型特点

长上下文支持
支持长达8,192个token的长上下文句子表征
套娃表征学习(MRL)
可在表征质量损失最小的情况下缩减嵌入维度,支持[32, 64, 128, 256, 384]多种维度
高效小模型
仅3400万参数的小型模型,在保持性能的同时减少计算资源需求
任务前缀优化
支持通过添加任务前缀(如classification/clustering/search_query等)优化不同场景下的表现

模型能力

文本嵌入生成
句子相似度计算
语义检索
文本聚类
分类任务
重排序任务

使用案例

信息检索
文档检索
用于长文档检索系统,支持8192token的长上下文理解
在MLDR-rus测试中nDCG@10达到51.69
语义分析
句子相似度计算
计算两个句子或文本片段之间的语义相似度
在MTEB-rus语义相似度任务中得分72.25
文本分类
多标签分类
适用于需要多标签分类的场景
在MTEB-rus多标签分类任务中得分33.56