sentence - camembert - base开源模型 - 实现先进的法语句子相似度计算功能

首页

Sentence Camembert Base

由 Lajavaness 开发

基于CamemBERT的法语句子嵌入模型，通过增强SBERT方法在stsb数据集上微调，实现最先进的法语句子相似度计算

文本嵌入

Safetensors

法语开源协议:Apache-2.0 #法语句子相似度 #高精度嵌入 #文本匹配

下载量 1,041

发布时间 : 10/25/2023

模型简介

该模型专门用于计算法语句子之间的语义相似度，基于CamemBERT架构并通过增强SBERT方法优化，在多个法语文本相似度基准测试中表现优异

模型特点

增强SBERT训练方法

采用先进的增强SBERT训练策略，结合CrossEncoder和大型模型进行配对采样优化

多基准测试优异表现

在STS-B、STS12-fr等多个法语文本相似度基准测试中取得领先成绩

高效参数规模

仅110M参数即达到与更大模型相当甚至更好的性能

模型能力

法语句子嵌入

句子相似度计算

语义文本匹配

使用案例

信息检索

相似文档检索

在法语文档库中查找语义相似的文档

提高检索准确率和召回率

问答系统

问题相似度匹配

识别用户问题与知识库问题的语义相似度

提升问答系统准确率

文本聚类

法语文本聚类

基于语义相似度对法语文本进行自动分组

实现无监督的文本分类

🚀 法语句子嵌入预训练模型

本项目提供的预训练句子嵌入模型是法语句子嵌入领域的先进解决方案，可高效实现句子相似度计算等功能。

🚀 快速开始

预训练的句子嵌入模型代表了法语句子嵌入的先进水平。此模型在 dangvantuan/sentence-camembert-base 的基础上进行了改进。具体方法是，在 stsb 数据集上使用 Augmented SBERT 进行微调，并结合通过 CrossEncoder-camembert-large 和 dangvantuan/sentence-camembert-large 这两个模型的配对采样策略。

✨ 主要特性

先进技术：基于先进的 Transformer 架构，结合 Augmented SBERT 微调技术，提升句子嵌入效果。
多模型融合：通过两个不同的模型进行配对采样策略，增强模型性能。
广泛应用：可用于句子相似度计算、文本分类等多种自然语言处理任务。

📦 安装指南

原文档未提及安装步骤，此章节跳过。

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer
model =  SentenceTransformer("Lajavaness/sentence-camembert-base")

sentences = ["Un avion est en train de décoller.",
          "Un homme joue d'une grande flûte.",
          "Un homme étale du fromage râpé sur une pizza.",
          "Une personne jette un chat au plafond.",
          "Une personne est en train de plier un morceau de papier.",
          ]

embeddings = model.encode(sentences)

高级用法

from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator
from datasets import load_dataset
def convert_dataset(dataset):
    dataset_samples=[]
    for df in dataset:
        score = float(df['similarity_score'])/5.0  # Normalize score to range 0 ... 1
        inp_example = InputExample(texts=[df['sentence1'], 
                                    df['sentence2']], label=score)
        dataset_samples.append(inp_example)
    return dataset_samples

# Loading the dataset for evaluation
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")

# Convert the dataset for evaluation

# For Dev set:
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")

# For Test set:
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")

📚 详细文档

评估结果

该模型可以在 stsb 的法语测试数据上进行如下评估。

测试结果：性能通过在 sts-benchmark 上的皮尔逊和斯皮尔曼相关性进行衡量：

开发集 | 模型 | 皮尔逊相关系数 | 斯皮尔曼相关系数 | 参数数量 | | ---- | ---- | ---- | ---- | | Lajavaness/sentence-camembert-base | 86.88 | 86.73 | 1.1 亿 | | dangvantuan/sentence-camembert-base | 86.73 | 86.54 | 1.1 亿 | | inokufu/flaubert-base-uncased-xnli-sts | 85.85 | 85.71 | 1.37 亿 | | distiluse-base-multilingual-cased | 79.22 | 79.16 | 1.35 亿 |
测试集：在多个不同的基准数据集上评估皮尔逊和斯皮尔曼相关性。

皮尔逊得分

模型	STS-B	STS12-fr	STS13-fr	STS14-fr	STS15-fr	STS16-fr	SICK-fr	参数数量
Lajavaness/sentence-camembert-base	83.46	84.49	84.61	83.94	86.94	75.20	82.86	1.1 亿
inokufu/flaubert-base-uncased-xnli-sts	82.82	84.79	85.76	82.81	85.38	74.05	82.23	1.37 亿
dangvantuan/sentence-camembert-base	82.36	82.06	84.08	81.51	85.54	73.97	80.91	1.1 亿
sentence-transformers/distiluse-base-multilingual-cased-v2	78.63	72.51	67.25	70.12	79.93	66.67	77.76	1.35 亿
hugorosen/flaubert_base_uncased-xnli-sts	78.38	79.00	77.61	76.56	79.03	71.22	80.58	1.37 亿
antoinelouis/biencoder-camembert-base-mmarcoFR	76.97	71.43	73.50	70.56	78.44	71.23	77.62	1.1 亿

斯皮尔曼得分

模型	STS-B	STS12-fr	STS13-fr	STS14-fr	STS15-fr	STS16-fr	SICK-fr	参数数量
Lajavaness/sentence-camembert-base	82.92	77.71	84.19	81.83	87.04	76.81	76.36	1.1 亿
inokufu/flaubert-base-uncased-xnli-sts	83.07	77.34	85.88	80.96	85.70	76.43	77.00	1.37 亿
dangvantuan/sentence-camembert-base	81.64	75.45	83.86	78.63	85.66	75.36	74.18	1.1 亿
sentence-transformers/distiluse-base-multilingual-cased-v2	77.49	69.80	68.85	68.17	80.27	70.04	72.49	1.35 亿
hugorosen/flaubert_base_uncased-xnli-sts	76.93	68.96	77.62	71.87	79.33	72.86	73.91	1.37 亿
antoinelouis/biencoder-camembert-base-mmarcoFR	75.55	66.89	73.90	67.14	78.78	72.64	72.03	1.1 亿

🔧 技术细节

原文档未提供足够的技术实现细节，此章节跳过。

📄 许可证

本项目采用 Apache 2.0 许可证。

📚 引用

@article{reimers2019sentence,
   title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
   author={Nils Reimers, Iryna Gurevych},
   journal={https://arxiv.org/abs/1908.10084},
   year={2019}
}

@article{martin2020camembert,
   title={CamemBERT: a Tasty French Language Mode},
   author={Martin, Louis and Muller, Benjamin and Suárez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
   journal={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
   year={2020}
}

@article{thakur2020augmented,
  title={Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks},
  author={Thakur, Nandan and Reimers, Nils and Daxenberger, Johannes and Gurevych, Iryna},
  journal={arXiv e-prints},
  pages={arXiv--2010},
  year={2020}
}