smaller-LaBSE开源多语言句子编码器 - 免费支持15种语言嵌入及相似度计算

首页

Smaller LaBSE

由 setu4993 开发

基于BERT架构的多语言句子编码器，支持15种语言的句子嵌入和相似度计算，是原始LaBSE模型的蒸馏版本。

文本嵌入支持多种语言开源协议:Apache-2.0 #多语言句子嵌入 #跨语言相似度计算 #BERT蒸馏模型

下载量 1,463

发布时间 : 3/2/2022

模型简介

该模型通过知识蒸馏技术从原始LaBSE模型压缩而来，保留了核心的多语言句子嵌入能力，可用于跨语言句子相似度计算等任务。

模型特点

多语言支持

支持15种语言的句子嵌入计算，可实现跨语言句子相似度比较

轻量级设计

通过知识蒸馏技术减小模型体积，同时保留核心功能

高质量嵌入

生成的句子嵌入向量能有效捕捉语义信息，适用于相似度计算

模型能力

多语言句子嵌入

跨语言句子相似度计算

语义相似度分析

使用案例

信息检索

跨语言文档检索

在不同语言的文档中查找语义相似的句子或段落

机器翻译

翻译质量评估

通过比较原文和译文的嵌入相似度评估翻译质量

🚀 LaBSE

LaBSE（Smaller Language-agnostic BERT Sentence Encoder）是一款用于句子相似度计算的多语言模型，支持包括阿拉伯语、德语、英语等在内的15种语言。它基于BERT架构，从原始的LaBSE模型蒸馏而来，可有效进行跨语言句子嵌入和相似度计算。

🚀 快速开始

模型使用

以下是使用该模型的示例代码：

import torch
from transformers import BertModel, BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained("setu4993/smaller-LaBSE")
model = BertModel.from_pretrained("setu4993/smaller-LaBSE")
model = model.eval()

english_sentences = [
    "dog",
    "Puppies are nice.",
    "I enjoy taking long walks along the beach with my dog.",
]
english_inputs = tokenizer(english_sentences, return_tensors="pt", padding=True)

with torch.no_grad():
    english_outputs = model(**english_inputs)

获取句子嵌入

要获取句子嵌入，可以使用池化层输出：

english_embeddings = english_outputs.pooler_output

其他语言输出示例

以下是意大利语和日语句子的处理示例：

italian_sentences = [
    "cane",
    "I cuccioli sono carini.",
    "Mi piace fare lunghe passeggiate lungo la spiaggia con il mio cane.",
]
japanese_sentences = ["犬", "子犬はいいです", "私は犬と一緒にビーチを散歩するのが好きです"]
italian_inputs = tokenizer(italian_sentences, return_tensors="pt", padding=True)
japanese_inputs = tokenizer(japanese_sentences, return_tensors="pt", padding=True)

with torch.no_grad():
    italian_outputs = model(**italian_inputs)
    japanese_outputs = model(**japanese_inputs)

italian_embeddings = italian_outputs.pooler_output
japanese_embeddings = japanese_outputs.pooler_output

句子相似度计算

在计算句子相似度之前，建议先进行L2归一化：

import torch.nn.functional as F

def similarity(embeddings_1, embeddings_2):
    normalized_embeddings_1 = F.normalize(embeddings_1, p=2)
    normalized_embeddings_2 = F.normalize(embeddings_2, p=2)
    return torch.matmul(
        normalized_embeddings_1, normalized_embeddings_2.transpose(0, 1)
    )

print(similarity(english_embeddings, italian_embeddings))
print(similarity(english_embeddings, japanese_embeddings))
print(similarity(italian_embeddings, japanese_embeddings))

✨ 主要特性

多语言支持：支持15种语言，包括阿拉伯语、德语、英语、西班牙语、法语等。
基于BERT架构：利用BERT的强大能力进行句子编码。
模型蒸馏：从原始的LaBSE模型蒸馏而来，减小了模型规模。

📦 模型信息

属性	详情
模型类型	基于BERT的句子编码器
训练数据	CommonCrawl、Wikipedia
许可证	Apache-2.0
模型链接	HuggingFace's model hub
原始模型链接	TensorFlow Hub
蒸馏源链接	GitHub
TF转PyTorch代码链接	GitHub

📚 详细文档

关于数据、训练、评估和性能指标的详细信息，请参考原始论文。

BibTeX引用

@misc{feng2020languageagnostic,
      title={Language-agnostic BERT Sentence Embedding},
      author={Fangxiaoyu Feng and Yinfei Yang and Daniel Cer and Naveen Arivazhagan and Wei Wang},
      year={2020},
      eprint={2007.01852},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}