R

Ruropebert E5 Base 2k

由 Tochka-AI 开发
基于RoPEBert架构开发的俄语句子编码器模型,支持2048标记上下文长度,在encodechka基准测试中表现优异。
下载量 2,422
发布时间 : 2/22/2024
模型介绍
内容详情
替代品

模型简介

由Tochka AI开发的俄语句子嵌入模型,采用RoPEBert架构,主要用于俄语文本的特征提取和句子相似度计算。

模型特点

长上下文支持
支持最长2048个标记的上下文处理,并可扩展至更长上下文
高效注意力机制
支持SDPA高效注意力实现,提升处理速度
RoPE缩放
支持linear和dynamic两种RoPE缩放类型,可扩展模型上下文窗口
内置池化器
内置mean和first_token_transform两种池化器实现,可直接获取句子嵌入

模型能力

俄语文本特征提取
句子相似度计算
文本分类
长文本处理

使用案例

文本相似度
句子相似度计算
计算俄语句子间的语义相似度
通过余弦相似度得分衡量句子相似程度
文本分类
俄语文本分类
添加分类头后可进行文本分类任务