moco-sentencebertV2.0开源模型 - 支持韩英语义计算与文本特征提取

首页

Moco Sentencebertv2.0

由 bongsoo 开发

基于韩语和英语优化的句子嵌入模型，支持语义相似度计算和文本特征提取

文本嵌入

Transformers

支持多种语言#韩英双语语义匹配 #师生蒸馏优化 #多领域STS适配

下载量 17

发布时间 : 9/19/2022

模型简介

该模型是基于multilingual BERT改进的句子嵌入模型，通过师生蒸馏训练优化，适用于韩语和英语的句子相似度计算、语义搜索和文本聚类任务。

模型特点

双语优化

专门针对韩语和英语进行优化，在两种语言的语义理解任务中表现优异

知识蒸馏

采用paraphrase-multilingual-mpnet-base-v2作为教师模型进行蒸馏训练，提升模型性能

扩展词汇

在原始multilingual BERT基础上新增32,989个词汇，总词汇量达152,537个

高效推理

支持最大128 token长度输入，在单GPU上推理显存占用约9GB

模型能力

句子嵌入生成

语义相似度计算

文本特征提取

跨语言语义匹配

使用案例

信息检索

相似问题匹配

在问答系统中查找与用户提问语义相似的问题

在korsts测试集上达到0.824的余弦相似度得分

内容推荐

🚀 moco-sentencebertV2.0

moco-sentencebertV2.0 是一个 sentence-transformers 模型，它可以将句子和段落映射到 768 维的密集向量空间，可用于聚类或语义搜索等任务。

🚀 快速开始

本模型可用于句子相似度计算等任务。以下是使用该模型的快速指引。

✨ 主要特性

此模型由 bongsoo/mbertV2.0 MLM 模型转换为 sentencebert 后，再经过 STS 师生蒸馏学习得到。
词汇表：包含 152,537 个词汇（在原有的 119,548 个词汇基础上新增 32,989 个）。

📦 安装指南

若已安装 sentence-transformers，使用该模型将十分便捷：

pip install -U sentence_transformers

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('bongsoo/moco-sentencebertV2.0')
embeddings = model.encode(sentences)
print(embeddings)

# sklearn 을 이용하여 cosine_scores를 구함
# => 입력값 embeddings 은 (1,768) 처럼 2D 여야 함.
from sklearn.metrics.pairwise import paired_cosine_distances, paired_euclidean_distances, paired_manhattan_distances
cosine_scores = 1 - (paired_cosine_distances(embeddings[0].reshape(1,-1), embeddings[1].reshape(1,-1)))

print(f'*cosine_score:{cosine_scores[0]}')

高级用法

若未安装 sentence-transformers，可按以下方式使用该模型：首先将输入数据传入 Transformer 模型，然后对上下文词嵌入应用合适的池化操作。

采用平均池化（mean_pooling）方式（cls 池化，max 池化）。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('bongsoo/moco-sentencebertV2.0')
model = AutoModel.from_pretrained('bongsoo/moco-sentencebertV2.0')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

# sklearn 을 이용하여 cosine_scores를 구함
# => 입력값 embeddings 은 (1,768) 처럼 2D 여야 함.
from sklearn.metrics.pairwise import paired_cosine_distances, paired_euclidean_distances, paired_manhattan_distances
cosine_scores = 1 - (paired_cosine_distances(sentence_embeddings[0].reshape(1,-1), sentence_embeddings[1].reshape(1,-1)))

print(f'*cosine_score:{cosine_scores[0]}')

📚 详细文档

评估结果

用于性能测量的语料库包括以下韩语（kor）和英语（en）评估语料库：
- 韩语：korsts（1,379 对句子） 和 klue-sts（519 对句子）
- 英语：stsb_multi_mt（1,376 对句子）和 glue:stsb（1,500 对句子）
性能指标采用 cosin.spearman 进行测量和比较。
评估测量代码可参考此处。

模型	korsts	klue-sts	korsts+klue-sts	stsb_multi_mt	glue(stsb)
distiluse-base-multilingual-cased-v2	0.747	0.785	0.577	0.807	0.819
paraphrase-multilingual-mpnet-base-v2	0.820	0.799	0.711	0.868	0.890
bongsoo/sentencedistilbertV1.2	0.819	0.858	0.630	0.837	0.873
bongsoo/moco-sentencedistilbertV2.0	0.812	0.847	0.627	0.837	0.877
bongsoo/moco-sentencebertV2.0	0.824	0.841	0.635	0.843	0.879

如需对该模型进行自动评估，请参考 Sentence Embeddings Benchmark：https://seb.sbert.net

训练过程

该模型的训练参数如下：

1. MLM 训练

输入模型：bert-base-multilingual-cased
语料库：训练集为 bongsoo/moco-corpus-kowiki2022（760 万个），评估集为 bongsoo/bongevalsmall
超参数：学习率为 5e-5，训练轮数为 8，批次大小为 32，最大令牌长度为 128
词汇表：152,537 个（在原有 119,548 个词汇基础上新增 32,989 个）
输出模型：mbertV2.0（大小：813MB）
训练时间：90 小时/1 个 GPU（24GB，使用 19.6GB）
损失：训练损失为 2.258400，评估损失为 3.102096，困惑度为 19.78158（bong_eval：1,500）
训练代码参考此处

2. STS 训练

将 bert 转换为 sentencebert。

输入模型：mbertV2.0
语料库：korsts + kluestsV1.1 + stsb_multi_mt + mteb/sickr-sts（共 33,093 个）
超参数：学习率为 3e-5，训练轮数为 200，批次大小为 32，最大令牌长度为 128
输出模型：sbert-mbertV2.0（大小：813MB）
训练时间：9 小时 20 分钟/1 个 GPU（24GB，使用 9.0GB）
损失（cosin_spearman）：0.799（语料库：korsts(tune_test.tsv)）
训练代码参考此处

3. 蒸馏（distilation）训练

学生模型：sbert-mbertV2.0
教师模型：paraphrase-multilingual-mpnet-base-v2
语料库：en_ko_train.tsv（韩语 - 英语社会科学领域平行语料库：110 万个）
超参数：学习率为 5e-5，训练轮数为 40，批次大小为 128，最大令牌长度为 128
输出模型：sbert-mlbertV2.0-distil
训练时间：17 小时/1 个 GPU（24GB，使用 18.6GB）
训练代码参考此处

4. STS 训练

对 sentencebert 模型进行 STS 训练。

输入模型：sbert-mlbertV2.0-distil
语料库：korsts（5,749 个）+ kluestsV1.1（11,668 个）+ stsb_multi_mt（5,749 个）+ mteb/sickr-sts（9,927 个）+ glue stsb（5,749 个）（共 38,842 个）
超参数：学习率为 3e-5，训练轮数为 800，批次大小为 64，最大令牌长度为 128
输出模型：moco-sentencebertV2.0
训练时间：25 小时/1 个 GPU（24GB，使用 13GB）
训练代码参考此处

模型制作过程的详细内容可参考此处。

数据加载器

torch.utils.data.dataloader.DataLoader 长度为 1035，参数如下：

{'batch_size': 32, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

配置

{
  "_name_or_path": "../../data11/model/sbert/sbert-mbertV2.0-distil",
  "architectures": [
    "BertModel"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "directionality": "bidi",
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "pooler_fc_size": 768,
  "pooler_num_attention_heads": 12,
  "pooler_num_fc_layers": 3,
  "pooler_size_per_head": 128,
  "pooler_type": "first_token_transform",
  "position_embedding_type": "absolute",
  "torch_dtype": "float32",
  "transformers_version": "4.21.2",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 152537
}

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)