sentence-flaubert-base开源模型 - 免费算法语句子相似度，精准又实用！

首页

Sentence Flaubert Base

由 Lajavaness 开发

基于FlauBERT的法语句子嵌入模型，用于计算句子相似度

文本嵌入

Safetensors

法语开源协议:Apache-2.0 #法语句子相似度 #高精度嵌入 #多基准测试

下载量 1,846

发布时间 : 10/25/2023

模型简介

该模型是基于预训练的FlauBERT模型微调的法语句子嵌入模型，专门用于计算句子之间的相似度。它在多个法语文本相似度基准测试中表现出色。

模型特点

高性能法语句子嵌入

在多个法语文本相似度基准测试中取得最先进性能

基于FlauBERT预训练模型

利用FlauBERT-base-uncased作为基础模型进行微调

Augmented SBERT方法

采用配对采样策略增强模型性能

模型能力

法语句子嵌入

句子相似度计算

文本语义匹配

使用案例

文本相似度

语义搜索

用于构建法语语义搜索引擎

提高搜索结果的相关性

问答系统

用于匹配问题和答案的语义相似度

提升问答系统的准确率

自然语言处理

文本聚类

用于将语义相似的文本分组

提高聚类质量

🚀 预训练法语句子嵌入模型

预训练的句子嵌入模型代表了法语句子嵌入领域的先进水平。该模型通过特定的微调方式，在法语句子嵌入任务中展现出卓越的性能，为相关自然语言处理应用提供了强大的支持。

🚀 快速开始

预训练的句子嵌入模型是法语句子嵌入领域的先进技术。该模型使用预训练的 flaubert/flaubert_base_uncased 和 Siamese BERT-Networks with 'sentences-transformers' 进行微调，并结合 Augmented SBERT 在数据集 stsb 上进行训练，同时采用了配对采样策略，借助两个模型 CrossEncoder-camembert-large 和 dangvantuan/sentence-camembert-large 完成训练。

✨ 主要特性

先进技术融合：结合了预训练模型、Siamese BERT-Networks、Augmented SBERT 等多种先进技术。
多模型协同：通过两个不同的模型进行配对采样策略，提升模型性能。
多数据集验证：在多个不同的基准数据集上进行评估，确保模型的泛化能力。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer
model =  SentenceTransformer("Lajavaness/sentence-flaubert-base")

sentences = ["Un avion est en train de décoller.",
          "Un homme joue d'une grande flûte.",
          "Un homme étale du fromage râpé sur une pizza.",
          "Une personne jette un chat au plafond.",
          "Une personne est en train de plier un morceau de papier.",
          ]

embeddings = model.encode(sentences)

📚 详细文档

评估

该模型可以在 stsb 的法语测试数据上进行如下评估：

from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator
from datasets import load_dataset
def convert_dataset(dataset):
    dataset_samples=[]
    for df in dataset:
        score = float(df['similarity_score'])/5.0  # Normalize score to range 0 ... 1
        inp_example = InputExample(texts=[df['sentence1'], 
                                    df['sentence2']], label=score)
        dataset_samples.append(inp_example)
    return dataset_samples

# Loading the dataset for evaluation
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")

# Convert the dataset for evaluation

# For Dev set:
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")

# For Test set:
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")

测试结果

性能通过在 sts-benchmark 上的 Pearson 和 Spearman 相关性进行衡量：

开发集

模型	Pearson 相关系数	Spearman 相关系数	参数数量
Lajavaness/sentence-flaubert-base	87.14	87.10	137M
Lajavaness/sentence-camembert-base	86.88	86.73	110M
dangvantuan/sentence-camembert-base	86.73	86.54	110M
inokufu/flaubert-base-uncased-xnli-sts	85.85	85.71	137M
distiluse-base-multilingual-cased	79.22	79.16	135M

测试集

在许多不同的基准数据集上评估 Pearson 和 Spearman 相关性：

Pearson 分数

模型	STS-B	STS12-fr	STS13-fr	STS14-fr	STS15-fr	STS16-fr	SICK-fr	参数数量
Lajavaness/sentence-flaubert-base	85.5	86.64	87.24	85.68	88.00	75.78	82.84	137M
Lajavaness/sentence-camembert-base	83.46	84.49	84.61	83.94	86.94	75.20	82.86	110M
inokufu/flaubert-base-uncased-xnli-sts	82.82	84.79	85.76	82.81	85.38	74.05	82.23	137M
dangvantuan/sentence-camembert-base	82.36	82.06	84.08	81.51	85.54	73.97	80.91	110M
sentence-transformers/distiluse-base-multilingual-cased-v2	78.63	72.51	67.25	70.12	79.93	66.67	77.76	135M
hugorosen/flaubert_base_uncased-xnli-sts	78.38	79.00	77.61	76.56	79.03	71.22	80.58	137M
antoinelouis/biencoder-camembert-base-mmarcoFR	76.97	71.43	73.50	70.56	78.44	71.23	77.62	110M

Spearman 分数

模型	STS-B	STS12-fr	STS13-fr	STS14-fr	STS15-fr	STS16-fr	SICK-fr	参数数量
Lajavaness/sentence-flaubert-base	85.67	80.00	86.91	84.59	88.10	77.84	77.55	137M
inokufu/flaubert-base-uncased-xnli-sts	83.07	77.34	85.88	80.96	85.70	76.43	77.00	137M
Lajavaness/sentence-camembert-base	82.92	77.71	84.19	81.83	87.04	76.81	76.36	110M
dangvantuan/sentence-camembert-base	81.64	75.45	83.86	78.63	85.66	75.36	74.18	110M
sentence-transformers/distiluse-base-multilingual-cased-v2	77.49	69.80	68.85	68.17	80.27	70.04	72.49	135M
hugorosen/flaubert_base_uncased-xnli-sts	76.93	68.96	77.62	71.87	79.33	72.86	73.91	137M
antoinelouis/biencoder-camembert-base-mmarcoFR	75.55	66.89	73.90	67.14	78.78	72.64	72.03	110M

📄 许可证

本模型采用 Apache-2.0 许可证。

📚 引用

@article{reimers2019sentence,
    title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
    author={Nils Reimers, Iryna Gurevych},
    journal={https://arxiv.org/abs/1908.10084},
    year={2019}
}

@article{martin2020camembert,
    title={CamemBERT: a Tasty French Language Mode},
    author={Martin, Louis and Muller, Benjamin and Suárez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
    journal={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
    year={2020}
}

@article{thakur2020augmented,
    title={Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks},
    author={Thakur, Nandan and Reimers, Nils and Daxenberger, Johannes and Gurevych, Iryna},
    journal={arXiv e-prints},
    pages={arXiv--2010},
    year={2020}
}