LaBSE开源多语言句子嵌入模型 - 支持109种语言的文本相似度计算与检索

首页

Labse

由 setu4993 开发

LaBSE是一个基于BERT的多语言句子嵌入模型，支持109种语言，适用于句子相似度计算和双语文本检索。

文本嵌入支持多种语言开源协议:Apache-2.0 #多语言句子嵌入 #跨语言检索 #109种语言支持

下载量 18.74k

发布时间 : 3/2/2022

模型简介

该模型通过结合掩码语言建模和翻译语言建模进行预训练，能够生成高质量的多语言句子嵌入，特别适合跨语言文本匹配任务。

模型特点

多语言支持

支持109种语言的句子嵌入，实现跨语言文本匹配

高质量嵌入

通过掩码语言建模和翻译语言建模联合训练，生成高质量的句子表示

跨语言检索

特别适合双语文本检索等跨语言应用场景

模型能力

多语言句子嵌入

跨语言文本相似度计算

双语文本检索

多语言语义匹配

使用案例

信息检索

跨语言文档检索

在不同语言的文档集合中查找语义相似的文档

可有效匹配不同语言中表达相同概念的文档

机器翻译

翻译质量评估

通过比较源语言和目标语言句子的嵌入相似度来评估翻译质量

提供与人工评估高度相关的自动评估指标

🚀 LaBSE

LaBSE（Language-agnostic BERT Sentence Encoder）是一个基于BERT的模型，可对109种语言进行句子嵌入处理。其预训练过程结合了掩码语言建模和翻译语言建模，能有效获取多语言句子嵌入，适用于双语检索任务。

🚀 快速开始

LaBSE模型可用于获取多语言句子嵌入和进行双语检索。你可以通过以下链接获取相关资源：

模型：HuggingFace模型中心
论文：arXiv
原始模型：TensorFlow Hub
博客文章：Google AI博客
从TensorFlow到PyTorch的转换：GitHub

此模型从TF Hub上的v2模型迁移而来，使用基于字典的输入。两个版本模型生成的嵌入是等效的。

✨ 主要特性

多语言支持：支持109种语言，包括但不限于英语、意大利语、日语、中文等。
句子嵌入：能够将句子转换为向量表示，便于进行相似度计算等任务。
双语检索：可用于双语检索场景，提高检索效率。

📦 安装指南

文档未提及具体安装步骤，你可参考HuggingFace模型中心的相关说明进行安装。

💻 使用示例

基础用法

import torch
from transformers import BertModel, BertTokenizerFast


tokenizer = BertTokenizerFast.from_pretrained("setu4993/LaBSE")
model = BertModel.from_pretrained("setu4993/LaBSE")
model = model.eval()

english_sentences = [
    "dog",
    "Puppies are nice.",
    "I enjoy taking long walks along the beach with my dog.",
]
english_inputs = tokenizer(english_sentences, return_tensors="pt", padding=True)

with torch.no_grad():
    english_outputs = model(**english_inputs)

高级用法

获取句子嵌入

english_embeddings = english_outputs.pooler_output

其他语言的输出

italian_sentences = [
    "cane",
    "I cuccioli sono carini.",
    "Mi piace fare lunghe passeggiate lungo la spiaggia con il mio cane.",
]
japanese_sentences = ["犬", "子犬はいいです", "私は犬と一緒にビーチを散歩するのが好きです"]
italian_inputs = tokenizer(italian_sentences, return_tensors="pt", padding=True)
japanese_inputs = tokenizer(japanese_sentences, return_tensors="pt", padding=True)

with torch.no_grad():
    italian_outputs = model(**italian_inputs)
    japanese_outputs = model(**japanese_inputs)

italian_embeddings = italian_outputs.pooler_output
japanese_embeddings = japanese_outputs.pooler_output

计算句子相似度

import torch.nn.functional as F


def similarity(embeddings_1, embeddings_2):
    normalized_embeddings_1 = F.normalize(embeddings_1, p=2)
    normalized_embeddings_2 = F.normalize(embeddings_2, p=2)
    return torch.matmul(
        normalized_embeddings_1, normalized_embeddings_2.transpose(0, 1)
    )


print(similarity(english_embeddings, italian_embeddings))
print(similarity(english_embeddings, japanese_embeddings))
print(similarity(italian_embeddings, japanese_embeddings))

📚 详细文档

关于数据、训练、评估和性能指标的详细信息，请参考原始论文。

🔧 技术细节

预训练过程结合了掩码语言建模和翻译语言建模，使得模型能够学习到跨语言的语义信息。

📄 许可证

本项目采用Apache-2.0许可证。

引用信息

@misc{feng2020languageagnostic,
      title={Language-agnostic BERT Sentence Embedding},
      author={Fangxiaoyu Feng and Yinfei Yang and Daniel Cer and Naveen Arivazhagan and Wei Wang},
      year={2020},
      eprint={2007.01852},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

信息表格

属性	详情
模型类型	BERT-based模型
训练数据	CommonCrawl、Wikipedia
支持语言	af、am、ar等109种语言
标签	bert、sentence_embedding、multilingual、google、sentence-similarity
许可证	apache-2.0