BERTA开源模型 - 免费计算俄英句子嵌入向量，支持多种前缀任务

首页

BERTA

由 sergeyzh 开发

BERTA是通过蒸馏FRIDA模型的嵌入向量到LaBSE-ru-turbo获得的，用于计算俄语和英语句子的嵌入向量，支持多种前缀任务。

文本嵌入

Transformers

支持多种语言开源协议:MIT #俄英双语嵌入 #句子相似度计算 #前缀优化

下载量 7,089

发布时间 : 3/10/2025

模型简介

BERTA模型是一个用于计算俄语和英语句子嵌入向量的预训练模型，通过蒸馏FRIDA模型的嵌入向量到LaBSE-ru-turbo获得，保留了俄英句子嵌入和前缀功能。

模型特点

多前缀支持

支持多种前缀任务，如语义相似度、复述识别、自然语言推理等，通过不同前缀优化任务表现。

蒸馏优化

通过蒸馏FRIDA模型的嵌入向量到LaBSE-ru-turbo，保留了高性能的同时降低了模型复杂度。

多语言支持

支持俄语和英语的句子嵌入计算，适用于跨语言任务。

模型能力

计算句子嵌入向量

语义文本相似度计算

复述识别

自然语言推理

情感分析

毒性识别

使用案例

文本分类

新闻标题分类

对新闻标题进行分类，准确率高达0.891。

准确率0.891

电影评论分类

对电影评论进行情感分类，准确率0.678。

准确率0.678

信息检索

新闻检索

用于新闻检索任务，NDCG@10达到0.816。

NDCG@10 0.816

问答检索

用于问答检索任务，NDCG@10达到0.710。

NDCG@10 0.710

语义相似度

俄语STS基准

计算俄语句子的语义相似度，皮尔逊相关系数0.822。

皮尔逊相关系数0.822

🚀 BERTA

BERTA是一个用于计算俄语和英语句子嵌入的模型。它通过将ai-forever/FRIDA（嵌入维度为1536，层数为24）的嵌入蒸馏到sergeyzh/LaBSE-ru-turbo（嵌入维度为768，层数为12）中得到。FRIDA的主要使用模式CLS池化被替换为均值池化，模型行为未做其他更改。蒸馏尽可能全面，涵盖了俄语和英语句子的嵌入以及前缀处理。

模型的上下文大小与FRIDA一致，为512个词元。

模型信息

属性	详情
模型类型	用于计算俄语和英语句子嵌入的模型
训练数据	IlyaGusev/gazeta、zloelias/lenta-ru、HuggingFaceFW/fineweb-2、HuggingFaceFW/fineweb
许可证	MIT
基础模型	sergeyzh/LaBSE-ru-turbo
标签	russian、pretraining、embeddings、feature-extraction、sentence-similarity、sentence-transformers、transformers
任务类型	sentence-similarity

✨ 主要特性

多语言支持：能够处理俄语和英语句子的嵌入计算。
蒸馏优化：通过蒸馏技术将高维嵌入压缩到低维，同时保持性能。
上下文一致：上下文大小与FRIDA相同，为512个词元。
前缀继承：继承了FRIDA的所有前缀，并在配置文件中设置了默认前缀。

📦 安装指南

文档未提供具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

使用transformers库调用模型：

import torch
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel


def pool(hidden_state, mask, pooling_method="mean"):
    if pooling_method == "mean":
        s = torch.sum(hidden_state * mask.unsqueeze(-1).float(), dim=1)
        d = mask.sum(axis=1, keepdim=True).float()
        return s / d
    elif pooling_method == "cls":
        return hidden_state[:, 0]

inputs = [
    # 
    "paraphrase: В Ярославской области разрешили работу бань, но без посетителей",
    "categorize_entailment: Женщину доставили в больницу, за ее жизнь сейчас борются врачи.",
    "search_query: Сколько программистов нужно, чтобы вкрутить лампочку?",
    # 
    "paraphrase: Ярославским баням разрешили работать без посетителей",
    "categorize_entailment: Женщину спасают врачи.",
    "search_document: Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование."
]

tokenizer = AutoTokenizer.from_pretrained("sergeyzh/BERTA")
model = AutoModel.from_pretrained("sergeyzh/BERTA")

tokenized_inputs = tokenizer(inputs, max_length=512, padding=True, truncation=True, return_tensors="pt")

with torch.no_grad():
    outputs = model(**tokenized_inputs)
    
embeddings = pool(
    outputs.last_hidden_state, 
    tokenized_inputs["attention_mask"],
    pooling_method="mean"
)

embeddings = F.normalize(embeddings, p=2, dim=1)
sim_scores = embeddings[:3] @ embeddings[3:].T
print(sim_scores.diag().tolist())
# [0.9530372023582458, 0.866746723651886,  0.7839133143424988]
# [0.9360030293464661, 0.8591322302818298, 0.728583037853241] - FRIDA

高级用法

使用sentence_transformers库调用模型（sentence-transformers>=2.4.0）：

from sentence_transformers import SentenceTransformer

# loads model with mean pooling
model = SentenceTransformer("sergeyzh/BERTA")

paraphrase = model.encode(["В Ярославской области разрешили работу бань, но без посетителей", "Ярославским баням разрешили работать без посетителей"], prompt="paraphrase: ")
print(paraphrase[0] @ paraphrase[1].T) 
# 0.9530372
# 0.9360032 - FRIDA

categorize_entailment = model.encode(["Женщину доставили в больницу, за ее жизнь сейчас борются врачи.", "Женщину спасают врачи."], prompt="categorize_entailment: ")
print(categorize_entailment[0] @ categorize_entailment[1].T) 
# 0.8667469
# 0.8591322 - FRIDA

query_embedding = model.encode("Сколько программистов нужно, чтобы вкрутить лампочку?", prompt="search_query: ")
document_embedding = model.encode("Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование.", prompt="search_document: ")
print(query_embedding @ document_embedding.T) 
# 0.7839136
# 0.7285831 - FRIDA

📚 详细文档

前缀说明

所有前缀均继承自FRIDA。对于大多数任务，最优（能提供平均水平结果）的前缀是 "categorize_entailment: "，该前缀已默认写入config_sentence_transformers.json。

以下是在encodechka中使用的前缀列表及其对模型评估的影响：

前缀	STS	PI	NLI	SA	TI
-	0.842	0.757	0.463	0.830	0.985
search_query:	0.853	0.767	0.479	0.825	0.987
search_document:	0.831	0.749	0.463	0.817	0.986
paraphrase:	0.847	0.778	0.446	0.825	0.986
categorize:	0.857	0.765	0.501	0.829	0.988
categorize_sentiment:	0.589	0.535	0.417	0.805	0.982
categorize_topic:	0.740	0.521	0.396	0.770	0.982
categorize_entailment:	0.841	0.762	0.571	0.827	0.986

任务说明

语义文本相似度（STS）
释义识别（PI）
自然语言推理（NLI）
情感分析（SA）
毒性识别（TI）

模型评估指标

模型在ruMTEB基准测试中的评估结果如下：

模型名称	指标	FRIDA	BERTA	rubert-mini-frida	multilingual-e5-large-instruct	multilingual-e5-large
CEDRClassification	准确率	0.646	0.622	0.552	0.500	0.448
GeoreviewClassification	准确率	0.577	0.548	0.464	0.559	0.497
GeoreviewClusteringP2P	V-measure	0.783	0.738	0.698	0.743	0.605
HeadlineClassification	准确率	0.890	0.891	0.880	0.862	0.758
InappropriatenessClassification	准确率	0.783	0.748	0.698	0.655	0.616
KinopoiskClassification	准确率	0.705	0.678	0.595	0.661	0.566
RiaNewsRetrieval	NDCG@10	0.868	0.816	0.721	0.824	0.807
RuBQReranking	MAP@10	0.771	0.752	0.711	0.717	0.756
RuBQRetrieval	NDCG@10	0.724	0.710	0.654	0.692	0.741
RuReviewsClassification	准确率	0.751	0.723	0.658	0.686	0.653
RuSTSBenchmarkSTS	皮尔逊相关系数	0.814	0.822	0.803	0.840	0.831
RuSciBenchGRNTIClassification	准确率	0.699	0.690	0.625	0.651	0.582
RuSciBenchGRNTIClusteringP2P	V-measure	0.670	0.650	0.586	0.622	0.520
RuSciBenchOECDClassification	准确率	0.546	0.555	0.493	0.502	0.445
RuSciBenchOECDClusteringP2P	V-measure	0.566	0.556	0.507	0.528	0.450
SensitiveTopicsClassification	准确率	0.398	0.399	0.373	0.323	0.257
TERRaClassification	平均精度	0.665	0.657	0.606	0.639	0.584
Classification	准确率	0.707	0.698	0.631	0.654	0.588
Clustering	V-measure	0.673	0.648	0.597	0.631	0.525
MultiLabelClassification	准确率	0.522	0.510	0.463	0.412	0.353
PairClassification	平均精度	0.665	0.657	0.606	0.639	0.584
Reranking	MAP@10	0.771	0.752	0.711	0.717	0.756
Retrieval	NDCG@10	0.796	0.763	0.687	0.758	0.774
STS	皮尔逊相关系数	0.814	0.822	0.803	0.840	0.831
平均	平均值	0.707	0.693	0.643	0.664	0.630