模型简介
模型特点
模型能力
使用案例
🚀 法语句子嵌入预训练模型
本项目提供的预训练句子嵌入模型是法语句子嵌入领域的先进解决方案,可高效实现句子相似度计算等功能。
🚀 快速开始
预训练的句子嵌入模型代表了法语句子嵌入的先进水平。此模型在 dangvantuan/sentence-camembert-base 的基础上进行了改进。具体方法是,在 stsb 数据集上使用 Augmented SBERT 进行微调,并结合通过 CrossEncoder-camembert-large 和 dangvantuan/sentence-camembert-large 这两个模型的配对采样策略。
✨ 主要特性
- 先进技术:基于先进的 Transformer 架构,结合 Augmented SBERT 微调技术,提升句子嵌入效果。
- 多模型融合:通过两个不同的模型进行配对采样策略,增强模型性能。
- 广泛应用:可用于句子相似度计算、文本分类等多种自然语言处理任务。
📦 安装指南
原文档未提及安装步骤,此章节跳过。
💻 使用示例
基础用法
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Lajavaness/sentence-camembert-base")
sentences = ["Un avion est en train de décoller.",
"Un homme joue d'une grande flûte.",
"Un homme étale du fromage râpé sur une pizza.",
"Une personne jette un chat au plafond.",
"Une personne est en train de plier un morceau de papier.",
]
embeddings = model.encode(sentences)
高级用法
from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator
from datasets import load_dataset
def convert_dataset(dataset):
dataset_samples=[]
for df in dataset:
score = float(df['similarity_score'])/5.0 # Normalize score to range 0 ... 1
inp_example = InputExample(texts=[df['sentence1'],
df['sentence2']], label=score)
dataset_samples.append(inp_example)
return dataset_samples
# Loading the dataset for evaluation
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")
# Convert the dataset for evaluation
# For Dev set:
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")
# For Test set:
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")
📚 详细文档
评估结果
该模型可以在 stsb 的法语测试数据上进行如下评估。
测试结果: 性能通过在 sts-benchmark 上的皮尔逊和斯皮尔曼相关性进行衡量:
-
开发集 | 模型 | 皮尔逊相关系数 | 斯皮尔曼相关系数 | 参数数量 | | ---- | ---- | ---- | ---- | | Lajavaness/sentence-camembert-base | 86.88 | 86.73 | 1.1 亿 | | dangvantuan/sentence-camembert-base | 86.73 | 86.54 | 1.1 亿 | | inokufu/flaubert-base-uncased-xnli-sts | 85.85 | 85.71 | 1.37 亿 | | distiluse-base-multilingual-cased | 79.22 | 79.16 | 1.35 亿 |
-
测试集:在多个不同的基准数据集上评估皮尔逊和斯皮尔曼相关性。
皮尔逊得分
模型 | STS-B | STS12-fr | STS13-fr | STS14-fr | STS15-fr | STS16-fr | SICK-fr | 参数数量 |
---|---|---|---|---|---|---|---|---|
Lajavaness/sentence-camembert-base | 83.46 | 84.49 | 84.61 | 83.94 | 86.94 | 75.20 | 82.86 | 1.1 亿 |
inokufu/flaubert-base-uncased-xnli-sts | 82.82 | 84.79 | 85.76 | 82.81 | 85.38 | 74.05 | 82.23 | 1.37 亿 |
dangvantuan/sentence-camembert-base | 82.36 | 82.06 | 84.08 | 81.51 | 85.54 | 73.97 | 80.91 | 1.1 亿 |
sentence-transformers/distiluse-base-multilingual-cased-v2 | 78.63 | 72.51 | 67.25 | 70.12 | 79.93 | 66.67 | 77.76 | 1.35 亿 |
hugorosen/flaubert_base_uncased-xnli-sts | 78.38 | 79.00 | 77.61 | 76.56 | 79.03 | 71.22 | 80.58 | 1.37 亿 |
antoinelouis/biencoder-camembert-base-mmarcoFR | 76.97 | 71.43 | 73.50 | 70.56 | 78.44 | 71.23 | 77.62 | 1.1 亿 |
斯皮尔曼得分
模型 | STS-B | STS12-fr | STS13-fr | STS14-fr | STS15-fr | STS16-fr | SICK-fr | 参数数量 |
---|---|---|---|---|---|---|---|---|
Lajavaness/sentence-camembert-base | 82.92 | 77.71 | 84.19 | 81.83 | 87.04 | 76.81 | 76.36 | 1.1 亿 |
inokufu/flaubert-base-uncased-xnli-sts | 83.07 | 77.34 | 85.88 | 80.96 | 85.70 | 76.43 | 77.00 | 1.37 亿 |
dangvantuan/sentence-camembert-base | 81.64 | 75.45 | 83.86 | 78.63 | 85.66 | 75.36 | 74.18 | 1.1 亿 |
sentence-transformers/distiluse-base-multilingual-cased-v2 | 77.49 | 69.80 | 68.85 | 68.17 | 80.27 | 70.04 | 72.49 | 1.35 亿 |
hugorosen/flaubert_base_uncased-xnli-sts | 76.93 | 68.96 | 77.62 | 71.87 | 79.33 | 72.86 | 73.91 | 1.37 亿 |
antoinelouis/biencoder-camembert-base-mmarcoFR | 75.55 | 66.89 | 73.90 | 67.14 | 78.78 | 72.64 | 72.03 | 1.1 亿 |
🔧 技术细节
原文档未提供足够的技术实现细节,此章节跳过。
📄 许可证
本项目采用 Apache 2.0 许可证。
📚 引用
@article{reimers2019sentence,
title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
author={Nils Reimers, Iryna Gurevych},
journal={https://arxiv.org/abs/1908.10084},
year={2019}
}
@article{martin2020camembert,
title={CamemBERT: a Tasty French Language Mode},
author={Martin, Louis and Muller, Benjamin and Suárez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
journal={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
year={2020}
}
@article{thakur2020augmented,
title={Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks},
author={Thakur, Nandan and Reimers, Nils and Daxenberger, Johannes and Gurevych, Iryna},
journal={arXiv e-prints},
pages={arXiv--2010},
year={2020}
}







