U

USER Base

由 deepvk 开发
专为俄语设计的句子嵌入提取模型,可将句子和段落映射到768维稠密向量空间,适用于聚类或语义搜索等任务。
下载量 2,337
发布时间 : 6/10/2024
模型介绍
内容详情
替代品

模型简介

USER是基于sentence-transformers的俄语通用句子编码器,专门针对俄语训练,适用于各种自然语言处理任务。

模型特点

俄语优化
专门针对俄语训练,在俄语任务上表现优异
多阶段训练
采用两阶段训练流程,结合对比预训练和模型融合技术
提示词优化
通过query和passage提示词区分不同任务类型
轻量高效
仅85M参数,在同规模模型中表现最优

模型能力

句子嵌入提取
语义相似度计算
文本聚类
信息检索
特征提取

使用案例

信息检索
问答系统
用于匹配用户查询与相关文档段落
在MIRACL数据集上达到0.763的召回率@100
文本分析
语义相似度计算
计算两个句子或段落之间的语义相似度
在Encodechka基准上平均得分0.772
文本聚类
将相似内容的文本自动分组