moco-sentencedistilbertV2.0开源模型 - 支持韩英双语语义搜索与聚类任务

首页

Moco Sentencedistilbertv2.0

由 bongsoo 开发

这是一个基于sentence-transformers的韩英双语句子嵌入模型，可将句子映射到768维向量空间，适用于语义搜索和聚类任务。

文本嵌入

Transformers

支持多种语言#韩英双语 #句子相似度 #语义搜索

下载量 39

发布时间 : 9/5/2022

模型简介

该模型基于mdistilbertV1.1改进，使用3.2M句子的moco-corpus训练，通过STS师生蒸馏训练而成，支持韩语和英语的句子相似度计算。

模型特点

双语支持

同时支持韩语和英语的句子嵌入表示

高效蒸馏

通过师生蒸馏训练提高模型性能

大规模训练

使用3.2M句子的moco-corpus进行训练

优化词汇

词汇量扩展至164,314个，比原模型增加17,870个新词汇

模型能力

句子嵌入

语义相似度计算

文本聚类

跨语言检索

使用案例

信息检索

跨语言文档检索

在韩语和英语混合文档库中查找语义相似的文档

可有效识别不同语言间语义相似的文档

问答系统

问题匹配

匹配用户问题与知识库中的相似问题

如示例中所示，能准确识别'韩国的首都是？'与'首尔是韩国的首都'的语义相似性

内容推荐

相似内容推荐

基于内容语义相似性推荐相关文章或产品

🚀 moco-sentencedistilbertV2.0

这是一个 sentence-transformers 模型：它可以将句子和段落映射到一个 768 维的密集向量空间，可用于聚类或语义搜索等任务。

✨ 主要特性

该模型是在 mdistilbertV1.1 模型的基础上，使用 moco-corpus 语料库（MOCOMSYS 提取的 320 万个句子）通过 sentencebert 方法训练，然后额外进行 STS 师生蒸馏学习得到的。
词汇表：164,314 个（在原 mdistilbertV1.1 词汇表（146,444 个）的基础上增加了 17,870 个词汇）
MLM 模型：bongsoo/mdistilbertV2.0

📦 安装指南

如果你安装了 sentence-transformers，使用这个模型会很方便：

pip install -U sentence_transformers

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('bongsoo/moco-sentencedistilbertV2.0')
embeddings = model.encode(sentences)
print(embeddings)

# 使用 sklearn 计算 cosine_scores
# => 输入的 embeddings 必须是 (1,768) 这样的二维形式
from sklearn.metrics.pairwise import paired_cosine_distances, paired_euclidean_distances, paired_manhattan_distances
cosine_scores = 1 - (paired_cosine_distances(embeddings[0].reshape(1,-1), embeddings[1].reshape(1,-1)))

print(f'*cosine_score:{cosine_scores[0]}')

输出示例

[[ 9.7172342e-02 -3.3226651e-01 -7.7130608e-05 ...  1.3900512e-02 2.1072578e-01 -1.5386048e-01]
 [ 2.3313640e-02 -8.4675789e-02 -3.7715461e-06 ...  2.4005771e-02 -1.6602692e-01 -1.2729791e-01]]
*cosine_score:0.3383665680885315

高级用法

如果没有安装 sentence-transformers，你可以这样使用该模型：首先将输入传递给 Transformer 模型，然后对上下文词嵌入应用正确的池化操作。

使用平均池化（mean_pooling）方式（cls 池化，max 池化）

from transformers import AutoTokenizer, AutoModel
import torch


# 平均池化 - 考虑注意力掩码以进行正确的平均计算
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] # 模型输出的第一个元素包含所有词嵌入
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# 需要获取句子嵌入的句子
sentences = ['This is an example sentence', 'Each sentence is converted']

# 从 HuggingFace Hub 加载模型
tokenizer = AutoTokenizer.from_pretrained('bongsoo/moco-sentencedistilbertV2.0')
model = AutoModel.from_pretrained('bongsoo/moco-sentencedistilbertV2.0')

# 对句子进行分词
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# 计算词嵌入
with torch.no_grad():
    model_output = model(**encoded_input)

# 进行池化操作，这里使用平均池化
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

# 使用 sklearn 计算 cosine_scores
# => 输入的 embeddings 必须是 (1,768) 这样的二维形式
from sklearn.metrics.pairwise import paired_cosine_distances, paired_euclidean_distances, paired_manhattan_distances
cosine_scores = 1 - (paired_cosine_distances(sentence_embeddings[0].reshape(1,-1), sentence_embeddings[1].reshape(1,-1)))

print(f'*cosine_score:{cosine_scores[0]}')

输出示例

Sentence embeddings:
tensor([[ 9.7172e-02, -3.3227e-01, -7.7131e-05,  ...,  1.3901e-02, 2.1073e-01, -1.5386e-01],
        [ 2.3314e-02, -8.4676e-02, -3.7715e-06,  ...,  2.4006e-02, -1.6603e-01, -1.2730e-01]])
*cosine_score:0.3383665680885315

📚 详细文档

评估结果

用于性能测量的语料库使用了以下韩语（kor）和英语（en）评估语料库：
- 韩语：korsts（1,379 对句子） 和 klue-sts（519 对句子）
- 英语：stsb_multi_mt（1,376 对句子）
性能指标采用 cosin.spearman 进行测量和比较。
评估测量代码请参考这里

模型	korsts	klue-sts	korsts+klue-sts	stsb_multi_mt
bongsoo/sentencedistilbertV1.2	0.819	0.858	0.630	0.837
distiluse-base-multilingual-cased-v2	0.747	0.785	0.577	0.807
paraphrase-multilingual-mpnet-base-v2	0.820	0.799	0.711	0.868
bongsoo/moco-sentencedistilbertV2.0	0.812	0.847	0.627	0.837

要对该模型进行自动评估，请参考 Sentence Embeddings Benchmark：https://seb.sbert.net

训练过程

该模型的训练参数如下：

1. MLM 训练

输入模型：bongsoo/mdistilbertV1.1（使用 kowiki20220620（440 万个句子）语料库训练的 distilbert-base-multilingual-cased）
语料库：nlp_corpus（320 万个句子）：MOCOMSYS 文件清理后的语料库
超参数：学习率：5e-5，训练轮数：8，批量大小：32，最大令牌长度：128
输出模型：mdistilbertV2.0
训练时间：27 小时
训练代码请参考这里

2. STS 训练

将 distilbert 转换为 sentencebert 模型
输入模型：mdistilbertV2.0
语料库：korsts + kluestsV1.1 + stsb_multi_mt + mteb/sickr-sts（共 33,093 个句子）
超参数：学习率：2e-5，训练轮数：200，批量大小：32，最大令牌长度：128
输出模型：sbert-mdistilbertV2.0
训练时间：5 小时
训练代码请参考这里

3. 蒸馏（distilation）训练

学生模型：sbert-mdistilbertV2.0
教师模型：paraphrase-multilingual-mpnet-base-v2
语料库：en_ko_train.tsv（韩语 - 英语社会科学领域平行语料库：110 万个句子）
超参数：学习率：5e-5，训练轮数：40，批量大小：32，最大令牌长度：128
输出模型：sbert-mdistilbertV2.0.2-distil
训练时间：11 小时
训练代码请参考这里

4. STS 训练

对 sentencebert 模型进行 STS 训练
输入模型：sbert-mdistilbertV2.0.2-distil
语料库：korsts + kluestsV1.1 + stsb_multi_mt + mteb/sickr-sts（共 33,093 个句子）
超参数：学习率：3e-5，训练轮数：800，批量大小：32，最大令牌长度：128
输出模型：moco-sentencedistilbertV2.0
训练时间：15 小时
训练代码请参考这里

模型制作过程的详细内容请参考这里。

数据加载器：

{'batch_size': 32, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

配置信息：

{
  "_name_or_path": "../../data11/model/sbert/sbert-mdistilbertV2.0.2-distil",
  "activation": "gelu",
  "architectures": [
    "DistilBertModel"
  ],
  "attention_dropout": 0.1,
  "dim": 768,
  "dropout": 0.1,
  "hidden_dim": 3072,
  "initializer_range": 0.02,
  "max_position_embeddings": 512,
  "model_type": "distilbert",
  "n_heads": 12,
  "n_layers": 6,
  "output_past": true,
  "pad_token_id": 0,
  "qa_dropout": 0.1,
  "seq_classif_dropout": 0.2,
  "sinusoidal_pos_embds": false,
  "tie_weights_": true,
  "torch_dtype": "float32",
  "transformers_version": "4.21.2",
  "vocab_size": 164314
}

🔧 技术细节

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: DistilBertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)