rubert-mini-sts开源模型 - 免费计算俄语句子紧凑嵌入向量，超实用！

首页

Rubert Mini Sts

由 sergeyzh 开发

这是一个用于计算俄语句子紧凑嵌入向量的基础BERT模型，基于cointegrated/rubert-tiny2开发，层数从3层增加到7层。

文本嵌入

Transformers

其他开源协议:MIT #俄语语义相似度 #CPU优化 #长文本处理

下载量 2,351

发布时间 : 3/30/2024

模型简介

该模型用于俄语句子的语义文本相似度计算，生成紧凑的嵌入向量，适用于CPU环境。

模型特点

高效CPU运行

专为CPU环境优化，具有较高的运行效率

长上下文支持

支持2048的上下文长度

紧凑嵌入向量

生成312维的紧凑嵌入向量

性能优化

相比基础模型rubert-tiny2，层数从3层增加到7层，提升性能

模型能力

俄语句子嵌入

语义相似度计算

文本特征提取

使用案例

文本相似度

文档检索

计算文档间的语义相似度

问答系统

匹配问题与候选答案的相似度

信息检索

搜索引擎优化

改进俄语搜索结果的语义相关性

🚀 用于CPU上语义文本相似度（STS）的基础Bert模型

这是一个基础的BERT模型，用于计算俄语句子的紧凑嵌入向量。该模型基于 cointegrated/rubert-tiny2 构建，具有相似的上下文长度（2048）和嵌入维度（312），但层数从3增加到了7。

模型信息

属性	详情
模型类型	用于语义文本相似度的基础Bert模型
训练数据集	IlyaGusev/gazeta、zloelias/lenta-ru
许可证	MIT
基础模型	cointegrated/rubert-tiny2

🚀 快速开始

✨ 主要特性

专为俄语句子的语义文本相似度计算设计。
基于 cointegrated/rubert-tiny2 模型，增加了层数以提升性能。
可在CPU上高效运行。

📦 安装指南

在使用模型前，需要安装必要的库：

pip install transformers sentencepiece

💻 使用示例

基础用法

使用 transformers 库调用模型：

# pip install transformers sentencepiece
import torch
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("sergeyzh/rubert-mini-sts")
model = AutoModel.from_pretrained("sergeyzh/rubert-mini-sts")
# model.cuda()  # uncomment it if you have a GPU

def embed_bert_cls(text, model, tokenizer):
    t = tokenizer(text, padding=True, truncation=True, return_tensors='pt')
    with torch.no_grad():
        model_output = model(**{k: v.to(model.device) for k, v in t.items()})
    embeddings = model_output.last_hidden_state[:, 0, :]
    embeddings = torch.nn.functional.normalize(embeddings)
    return embeddings[0].cpu().numpy()

print(embed_bert_cls('привет мир', model, tokenizer).shape)
# (312,)

高级用法

使用 sentence_transformers 库调用模型：

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('sergeyzh/rubert-mini-sts')

sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)
print(util.dot_score(embeddings, embeddings))

🔧 技术细节

模型评估指标

模型在 encodechka 基准测试中的评估结果如下：

模型	STS	PI	NLI	SA	TI
intfloat/multilingual-e5-large	0.862	0.727	0.473	0.810	0.979
sergeyzh/LaBSE-ru-sts	0.845	0.737	0.481	0.805	0.957
sergeyzh/rubert-mini-sts	0.815	0.723	0.477	0.791	0.949
sergeyzh/rubert-tiny-sts	0.797	0.702	0.453	0.778	0.946
Tochka-AI/ruRoPEBert-e5-base-512	0.793	0.704	0.457	0.803	0.970
cointegrated/LaBSE-en-ru	0.794	0.659	0.431	0.761	0.946
cointegrated/rubert-tiny2	0.750	0.651	0.417	0.737	0.937

任务说明：

语义文本相似度（STS）
释义识别（PI）
自然语言推理（NLI）
情感分析（SA）
毒性识别（TI）

性能和大小

模型在 encodechka 基准测试中的性能和大小指标如下：

模型	CPU	GPU	大小	维度	上下文长度	词汇量
intfloat/multilingual-e5-large	149.026	15.629	2136	1024	514	250002
sergeyzh/LaBSE-ru-sts	42.835	8.561	490	768	512	55083
sergeyzh/rubert-mini-sts	6.417	5.517	123	312	2048	83828
sergeyzh/rubert-tiny-sts	3.208	3.379	111	312	2048	83828
Tochka-AI/ruRoPEBert-e5-base-512	43.314	9.338	532	768	512	69382
cointegrated/LaBSE-en-ru	42.867	8.549	490	768	512	55083
cointegrated/rubert-tiny2	3.212	3.384	111	312	2048	83828