language:
pipeline_tag: sentence-similarity
tags:
- 俄语
- 预训练
- 嵌入向量
- 特征提取
- 句子相似度
- sentence-transformers
- transformers
license: mit
base_model: cointegrated/LaBSE-en-ru
基于GPU的语义文本相似度(STS)基础Bert模型
高质量俄语句子嵌入计算BERT模型。该模型基于cointegrated/LaBSE-en-ru,具有相同的上下文长度(512)、嵌入维度(768)和计算效率。
使用transformers
库调用模型:
import torch
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("sergeyzh/LaBSE-ru-sts")
model = AutoModel.from_pretrained("sergeyzh/LaBSE-ru-sts")
def embed_bert_cls(text, model, tokenizer):
t = tokenizer(text, padding=True, truncation=True, return_tensors='pt')
with torch.no_grad():
model_output = model(**{k: v.to(model.device) for k, v in t.items()})
embeddings = model_output.last_hidden_state[:, 0, :]
embeddings = torch.nn.functional.normalize(embeddings)
return embeddings[0].cpu().numpy()
print(embed_bert_cls('你好世界', model, tokenizer).shape)
使用sentence_transformers
库:
from sentence_transformers import SentenceTransformer, util
model = SentenceTransformer('sergeyzh/LaBSE-ru-sts')
sentences = ["你好世界", "hello world", "宇宙你好"]
embeddings = model.encode(sentences)
print(util.dot_score(embeddings, embeddings))
性能指标
模型在encodechka基准测试中的表现:
测试任务说明:
- 语义文本相似度(STS);
- 复述识别(PI);
- 自然语言推理(NLI);
- 情感分析(SA);
- 毒性识别(TI)。
计算效率与模型规格
模型在encodechka基准测试中的表现:
模型在ruMTEB基准测试中的表现:
模型名称 |
评估指标 |
sbert_large_mt_nlu_ru |
sbert_large_nlu_ru |
LaBSE-ru-sts |
LaBSE-ru-turbo |
multilingual-e5-small |
multilingual-e5-base |
multilingual-e5-large |
CEDR文本分类 |
准确率 |
0.368 |
0.358 |
0.418 |
0.451 |
0.401 |
0.423 |
0.448 |
地理评论分类 |
准确率 |
0.397 |
0.400 |
0.406 |
0.438 |
0.447 |
0.461 |
0.497 |
地理评论聚类 |
V-measure值 |
0.584 |
0.590 |
0.626 |
0.644 |
0.586 |
0.545 |
0.605 |
新闻标题分类 |
准确率 |
0.772 |
0.793 |
0.633 |
0.688 |
0.732 |
0.757 |
0.758 |
不当内容识别 |
准确率 |
0.646 |
0.625 |
0.599 |
0.615 |
0.592 |
0.588 |
0.616 |
电影评论分类 |
准确率 |
0.503 |
0.495 |
0.496 |
0.521 |
0.500 |
0.509 |
0.566 |
新闻检索 |
NDCG@10 |
0.214 |
0.111 |
0.651 |
0.694 |
0.700 |
0.702 |
0.807 |
问答重排序 |
MAP@10 |
0.561 |
0.468 |
0.688 |
0.687 |
0.715 |
0.720 |
0.756 |
问答检索 |
NDCG@10 |
0.298 |
0.124 |
0.622 |
0.657 |
0.685 |
0.696 |
0.741 |
俄语评论分类 |
准确率 |
0.589 |
0.583 |
0.599 |
0.632 |
0.612 |
0.630 |
0.653 |
俄语STS基准 |
皮尔逊相关系数 |
0.712 |
0.588 |
0.788 |
0.822 |
0.781 |
0.796 |
0.831 |
科技文献分类 |
准确率 |
0.542 |
0.539 |
0.529 |
0.569 |
0.550 |
0.563 |
0.582 |
科技文献聚类 |
V-measure值 |
0.522 |
0.504 |
0.486 |
0.517 |
0.511 |
0.516 |
0.520 |
OECD文献分类 |
准确率 |
0.438 |
0.430 |
0.406 |
0.440 |
0.427 |
0.423 |
0.445 |
OECD文献聚类 |
V-measure值 |
0.473 |
0.464 |
0.426 |
0.452 |
0.443 |
0.448 |
0.450 |
敏感话题识别 |
准确率 |
0.285 |
0.280 |
0.262 |
0.272 |
0.228 |
0.234 |
0.257 |
TERRa文本对分类 |
平均精确度 |
0.520 |
0.502 |
0.587 |
0.585 |
0.551 |
0.550 |
0.584 |
模型名称 |
评估指标 |
sbert_large_mt_nlu_ru |
sbert_large_nlu_ru |
LaBSE-ru-sts |
LaBSE-ru-turbo |
multilingual-e5-small |
multilingual-e5-base |
multilingual-e5-large |
分类任务 |
准确率 |
0.554 |
0.552 |
0.524 |
0.558 |
0.551 |
0.561 |
0.588 |
聚类任务 |
V-measure值 |
0.526 |
0.519 |
0.513 |
0.538 |
0.513 |
0.503 |
0.525 |
多标签分类 |
准确率 |
0.326 |
0.319 |
0.340 |
0.361 |
0.314 |
0.329 |
0.353 |
文本对分类 |
平均精确度 |
0.520 |
0.502 |
0.587 |
0.585 |
0.551 |
0.550 |
0.584 |
重排序任务 |
MAP@10 |
0.561 |
0.468 |
0.688 |
0.687 |
0.715 |
0.720 |
0.756 |
检索任务 |
NDCG@10 |
0.256 |
0.118 |
0.637 |
0.675 |
0.697 |
0.699 |
0.774 |
语义相似度 |
皮尔逊相关系数 |
0.712 |
0.588 |
0.788 |
0.822 |
0.781 |
0.796 |
0.831 |
综合表现 |
平均得分 |
0.494 |
0.438 |
0.582 |
0.604 |
0.588 |
0.594 |
0.630 |