sentence-camembert-base开源法语句子嵌入模型

首页

Sentence Camembert Base

由 dangvantuan 开发

基于Camembert-base的法语句子嵌入模型，用于计算句子相似度

文本嵌入

Safetensors

法语开源协议:Apache-2.0 #法语句子嵌入 #文本相似度计算 #孪生BERT网络

下载量 45.91k

发布时间 : 3/11/2022

模型简介

该模型是基于预训练的facebook/camembert-base模型，在stsb数据集上微调的句子嵌入模型，专门用于计算法语句子的相似度。

模型特点

高效的法语句子嵌入

专门针对法语优化的句子嵌入表示

基于Camembert-base

利用强大的法语预训练模型Camembert作为基础

性能优越

在法语文本相似度任务上表现优于同类多语言模型

模型能力

法语句子嵌入

句子相似度计算

语义相似度比较

使用案例

文本相似度

语义搜索

用于构建法语语义搜索引擎

重复内容检测

识别法语文档中的相似内容

🚀 预训练句子嵌入模型（sentence - camembert - base）

预训练句子嵌入模型是法语句子嵌入领域的先进技术。该模型基于预训练的 [facebook/camembert - base](https://huggingface.co/camembert/camembert - base) 进行微调，结合 Siamese BERT - Networks with 'sentences - transformers'，在 stsb 数据集上训练，为法语句子嵌入提供了高效的解决方案。

🚀 快速开始

模型信息

属性	详情
模型类型	预训练句子嵌入模型
训练数据	stsb_multi_mt
标签	Text、Sentence Similarity、Sentence - Embedding、camembert - base
许可证	apache - 2.0
库名称	sentence - transformers

模型索引

名称：sentence - camembert - base by Van Tuan DANG
结果：
- 任务：
  - 名称：Sentence - Embedding
  - 类型：Text Similarity
- 数据集：
  - 名称：Text Similarity fr
  - 类型：stsb_multi_mt
  - 参数：fr
- 指标：
  - 名称：Test Pearson correlation coefficient
  - 类型：Pearson_correlation_coefficient
  - 值：xx.xx

✨ 主要特性

预训练句子嵌入模型是法语句子嵌入的先进技术，基于预训练的 [facebook/camembert - base](https://huggingface.co/camembert/camembert - base) 进行微调，结合 Siamese BERT - Networks with 'sentences - transformers'，在 stsb 数据集上训练，能够有效处理法语句子的嵌入和相似度计算。

💻 使用示例

基础用法

模型可以直接使用（无需语言模型），示例代码如下：

from sentence_transformers import SentenceTransformer
model =  SentenceTransformer("dangvantuan/sentence - camembert - base")

sentences = ["Un avion est en train de décoller.",
          "Un homme joue d'une grande flûte.",
          "Un homme étale du fromage râpé sur une pizza.",
          "Une personne jette un chat au plafond.",
          "Une personne est en train de plier un morceau de papier.",
          ]

embeddings = model.encode(sentences)

评估用法

可以在 stsb 的法语测试数据上对模型进行评估，示例代码如下：

from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator
from datasets import load_dataset
def convert_dataset(dataset):
    dataset_samples=[]
    for df in dataset:
        score = float(df['similarity_score'])/5.0  # Normalize score to range 0 ... 1
        inp_example = InputExample(texts=[df['sentence1'], 
                                    df['sentence2']], label=score)
        dataset_samples.append(inp_example)
    return dataset_samples

# Loading the dataset for evaluation
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")

# Convert the dataset for evaluation

# For Dev set:
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts - dev')
val_evaluator(model, output_path="./")

# For Test set:
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts - test')
test_evaluator(model, output_path="./")

测试结果

模型的性能通过 Pearson 和 Spearman 相关性进行衡量：

开发集 | 模型 | Pearson 相关系数 | Spearman 相关系数 | 参数数量 | | ---- | ---- | ---- | ---- | | [dangvantuan/sentence - camembert - base](https://huggingface.co/dangvantuan/sentence - camembert - base) | 86.73 | 86.54 | 110M | | [distiluse - base - multilingual - cased](https://huggingface.co/sentence - transformers/distiluse - base - multilingual - cased) | 79.22 | 79.16 | 135M |
测试集 | 模型 | Pearson 相关系数 | Spearman 相关系数 | | ---- | ---- | ---- | | [dangvantuan/sentence - camembert - base](https://huggingface.co/dangvantuan/sentence - camembert - base) | 82.36 | 81.64 | | [distiluse - base - multilingual - cased](https://huggingface.co/sentence - transformers/distiluse - base - multilingual - cased) | 78.62 | 77.48 |

📚 详细文档

引用信息

@article{reimers2019sentence,
   title={Sentence - BERT: Sentence Embeddings using Siamese BERT - Networks},
   author={Nils Reimers, Iryna Gurevych},
   journal={https://arxiv.org/abs/1908.10084},
   year={2019}
}

@article{martin2020camembert,
   title={CamemBERT: a Tasty French Language Mode},
   author={Martin, Louis and Muller, Benjamin and Suárez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
   journal={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
   year={2020}
}