sentence-bert-swedish-cased开源瑞典语模型 - 免费实现语义搜索和聚类等任务

首页

Sentence Bert Swedish Cased

由 KBLab 开发

这是一个基于KB-BERT的瑞典语句子嵌入模型，可将瑞典语句子和段落映射到768维向量空间，支持语义搜索和聚类等任务。

文本嵌入

Transformers

其他开源协议:Apache-2.0 #瑞典语句子嵌入 #双语语义匹配 #知识蒸馏训练

下载量 16.37k

发布时间 : 3/2/2022

模型简介

该模型是一个瑞典语-英语双语句子嵌入模型，通过知识蒸馏方法训练，使用英语模型作为教师模型，预训练的瑞典语KB-BERT作为学生模型。

模型特点

双语支持

支持瑞典语和英语的双语句子嵌入

知识蒸馏训练

使用英语模型作为教师模型进行知识蒸馏训练

长文本支持

v2.0版本支持更长的文本输入（最大序列长度384）

高性能

在SweParaphrase测试集上表现出色，与人类评估相关性高

模型能力

句子嵌入

语义相似度计算

文本聚类

语义搜索

使用案例

信息检索

常见问题匹配

将用户问题与知识库中的常见问题进行语义匹配

在SweFAQ测试集上准确率达58.71%

文本分析

文本相似度评估

评估两个瑞典语句子之间的语义相似度

在SweParaphrase测试集上斯皮尔曼相关性达0.8550

🚀 KBLab/sentence-bert-swedish-cased

这是一个 sentence-transformers 模型，它可以将瑞典语的句子和段落映射到一个 768 维的密集向量空间，可用于聚类或语义搜索等任务。该模型是一个瑞典语 - 英语双语模型，按照论文 Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation 以及其配套 Python 包的文档中的说明进行训练。我们使用了可用的最强预训练英语双编码器（all-mpnet-base-v2）作为教师模型，并使用预训练的瑞典语 KB - BERT 作为学生模型。

你可以在我们发表于 KBLab 博客的文章中找到关于该模型更详细的描述：此处以及更新模型的此处。

更新：自初始版本发布以来，我们已经发布了该模型的更新版本。博客文章中描述的原始模型是 v1.0，当前版本是 v2.0。较新的版本在更长的段落上进行训练，并且具有更长的最大序列长度。v2.0 使用更强的教师模型进行训练，是当前的默认版本。

属性	详情
模型类型	sentence-transformers 模型
训练数据	来自英语 - 瑞典语平行语料库的约 1460 万个句子，数据来源于 Open Parallel Corpus（OPUS），通过 Python 包 opustools 下载，使用的数据集包括：JW300、Europarl、DGT - TM、EMEA、ELITR - ECA、TED2020、Tatoeba 和 OpenSubtitles

🚀 快速开始

本模型可以将瑞典语的句子和段落映射到 768 维的密集向量空间，适用于聚类、语义搜索等任务。下面将介绍不同场景下的使用方法。

✨ 主要特性

双语支持：该模型是瑞典语 - 英语双语模型，能处理两种语言的句子和段落。
向量映射：可将瑞典语句子和段落映射到 768 维的密集向量空间。
多任务适用：适用于聚类、语义搜索等多种自然语言处理任务。

📦 安装指南

如果你安装了 sentence-transformers，使用该模型会变得很容易：

pip install -U sentence-transformers

💻 使用示例

基础用法（Sentence - Transformers）

from sentence_transformers import SentenceTransformer
sentences = ["Det här är en exempelmening", "Varje exempel blir konverterad"]

model = SentenceTransformer('KBLab/sentence-bert-swedish-cased')
embeddings = model.encode(sentences)
print(embeddings)

加载旧版本模型（Sentence - Transformers）

目前，加载旧版本模型最简单的方法是克隆模型仓库并从磁盘加载。例如，要克隆 v1.0 模型：

git clone --depth 1 --branch v1.0 https://huggingface.co/KBLab/sentence-bert-swedish-cased

然后，你可以通过指向克隆模型的本地文件夹来加载模型：

from sentence_transformers import SentenceTransformer
model = SentenceTransformer("path_to_model_folder/sentence-bert-swedish-cased")

基础用法（HuggingFace Transformers）

如果没有安装 sentence-transformers，你可以按以下方式使用该模型：首先，将输入传递给 Transformer 模型，然后对上下文词嵌入应用正确的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['Det här är en exempelmening', 'Varje exempel blir konverterad']

# Load model from HuggingFace Hub
# To load an older version, e.g. v1.0, add the argument revision="v1.0" 
tokenizer = AutoTokenizer.from_pretrained('KBLab/sentence-bert-swedish-cased')
model = AutoModel.from_pretrained('KBLab/sentence-bert-swedish-cased')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, max pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

加载旧版本模型（Huggingface Transformers）

要加载旧版本模型，请使用 revision 参数指定版本标签。例如，要加载 v1.0 模型，请使用以下代码：

AutoTokenizer.from_pretrained('KBLab/sentence-bert-swedish-cased', revision="v1.0")
AutoModel.from_pretrained('KBLab/sentence-bert-swedish-cased', revision="v1.0")

📚 详细文档

评估结果

该模型在 SweParaphrase v1.0 和 SweParaphrase v2.0 上进行了评估。这个测试集是 SuperLim 的一部分，SuperLim 是一个用于自然语言理解任务的瑞典语评估套件。我们计算了模型预测的相似度得分与人工标注的相似度得分标签之间的皮尔逊和斯皮尔曼相关性。下面展示了 SweParaphrase v1.0 的评估结果。

模型版本	皮尔逊相关性	斯皮尔曼相关性
v1.0	0.9183	0.9114
v1.1	0.9183	0.9114
v2.0	0.9283	0.9130

可以使用以下代码片段重现上述结果：

from sentence_transformers import SentenceTransformer
import pandas as pd

df = pd.read_csv(
    "sweparaphrase-dev-165.csv",
    sep="\t",
    header=None,
    names=[
        "original_id",
        "source",
        "type",
        "sentence_swe1",
        "sentence_swe2",
        "score",
        "sentence1",
        "sentence2",
    ],
)

model = SentenceTransformer("KBLab/sentence-bert-swedish-cased")

sentences1 = df["sentence_swe1"].tolist()
sentences2 = df["sentence_swe2"].tolist()

# Compute embedding for both lists
embeddings1 = model.encode(sentences1, convert_to_tensor=True)
embeddings2 = model.encode(sentences2, convert_to_tensor=True)

# Compute cosine similarity after normalizing
embeddings1 /= embeddings1.norm(dim=-1, keepdim=True)
embeddings2 /= embeddings2.norm(dim=-1, keepdim=True)

cosine_scores = embeddings1 @ embeddings2.t()
sentence_pair_scores = cosine_scores.diag()

df["model_score"] = sentence_pair_scores.cpu().tolist()
print(df[["score", "model_score"]].corr(method="spearman"))
print(df[["score", "model_score"]].corr(method="pearson"))

SweParaphrase v2.0

总体而言，在 SweParaphrase v2.0 上，v1.1 与人工对文本相似度的评估相关性最高。下面展示了在所有数据分割上的零样本评估结果，这些结果展示了模型在未进行任何微调的情况下的性能。

模型版本	数据分割	皮尔逊相关性	斯皮尔曼相关性
v1.0	训练集	0.8355	0.8256
v1.1	训练集	0.8383	0.8302
v2.0	训练集	0.8209	0.8059
v1.0	开发集	0.8682	0.8774
v1.1	开发集	0.8739	0.8833
v2.0	开发集	0.8638	0.8668
v1.0	测试集	0.8356	0.8476
v1.1	测试集	0.8393	0.8550
v2.0	测试集	0.8232	0.8213

SweFAQ v2.0

在检索任务方面，v2.0 的表现明显优于其他版本。与 v1.1 和 v1.0 相比，它在将正确答案与问题进行匹配方面表现更好。

模型版本	数据分割	准确率
v1.0	训练集	0.5262
v1.1	训练集	0.6236
v2.0	训练集	0.7106
v1.0	开发集	0.4636
v1.1	开发集	0.5818
v2.0	开发集	0.6727
v1.0	测试集	0.4495
v1.1	测试集	0.5229
v2.0	测试集	0.5871

你可以在以下链接中找到如何在 SuperLim 套件的一些测试集上评估模型的示例：evaluate_faq.py（瑞典语常见问题解答）、evaluate_swesat.py（SweSAT 同义词）、evaluate_supersim.py（SuperSim）。

训练

你可以在 KBLab 博客上找到关于数据和 v1.0 模型的更多详细信息的文章。

该模型使用了来自英语 - 瑞典语平行语料库的约 1460 万个句子进行训练。数据来源于 Open Parallel Corpus（OPUS），并通过 Python 包 opustools 下载。使用的数据集包括：JW300、Europarl、DGT - TM、EMEA、ELITR - ECA、TED2020、Tatoeba 和 OpenSubtitles。

该模型使用以下参数进行训练：

数据加载器： torch.utils.data.dataloader.DataLoader，长度为 180513，参数如下：

{'batch_size': 64, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

损失函数： sentence_transformers.losses.MSELoss.MSELoss

fit() 方法的参数：

{
    "epochs": 2,
    "evaluation_steps": 1000,
    "evaluator": "sentence_transformers.evaluation.SequentialEvaluator.SequentialEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "eps": 1e-06,
        "lr": 8e-06
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 5000,
    "weight_decay": 0.01
}

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 384, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

🔧 技术细节

该模型是基于 sentence-transformers 框架构建的。它采用了知识蒸馏的方法，使用预训练的英语双编码器 all - mpnet - base - v2 作为教师模型，预训练的瑞典语 KB - BERT 作为学生模型。在训练过程中，使用了来自英语 - 瑞典语平行语料库的大量数据，通过特定的数据加载器和损失函数进行训练，并设置了相应的优化器和调度器参数。

📄 许可证

本模型采用 Apache - 2.0 许可证。

引用与作者

该模型由瑞典国家图书馆的数据实验室 KBLab 训练。

你可以引用我们博客上的文章：https://kb-labb.github.io/posts/2021-08-23-a-swedish-sentence-transformer/ 。

@misc{rekathati2021introducing,  
  author = {Rekathati, Faton},  
  title = {The KBLab Blog: Introducing a Swedish Sentence Transformer},  
  url = {https://kb-labb.github.io/posts/2021-08-23-a-swedish-sentence-transformer/},  
  year = {2021}  
}