sts-distilcamembert-base开源模型 - 免费将法语句子编码，用于相似度计算

首页

Sts Distilcamembert Base

由 h4c5 开发

这是一个基于DistilCamemBERT的法语句子嵌入模型，能够将句子或段落编码为768维向量，用于句子相似度计算等任务。

文本嵌入

Transformers

法语开源协议:MIT #法语句子嵌入 #高效蒸馏模型 #句子相似度计算

下载量 48

发布时间 : 2/26/2024

模型简介

该模型是通过微调DistilCamemBERT基础模型并使用sentence-transformers库得到的，专门用于法语句子相似度计算和特征提取任务。

模型特点

高效蒸馏模型

基于DistilCamemBERT，参数数量减半，推理时间更短，同时保持较好的性能。

法语句子嵌入

专门针对法语文本优化，能够生成高质量的句子嵌入表示。

高相似度计算精度

在STSb法语数据集上达到0.8165的皮尔逊相关系数，表现优异。

模型能力

法语句子嵌入

句子相似度计算

文本特征提取

使用案例

文本相似度

语义搜索

可用于构建法语语义搜索引擎，根据查询与文档的语义相似度返回结果。

重复内容检测

识别不同表述但语义相似的文本内容，用于内容去重。

信息检索

文档聚类

基于句子嵌入对法语文档进行聚类分析。

🚀 句子转换器（sentence-transformers）模型

本项目基于 sentence-transformers 库微调得到了一个可用于特征提取的模型，能够将句子或段落编码为向量，在句子相似度任务上有良好表现。

🚀 快速开始

本模型可通过 sentence-transformers 或 transformers 库使用，以下是使用步骤。

✨ 主要特性

基于 DistilCamemBERT 模型微调，参数数量减半，推理速度提升。
能够将句子或段落（最多 514 个标记）编码为 768 维的向量。

📦 安装指南

使用 `sentence-transformers` 库

pip install -U sentence-transformers

使用 `transformers` 库

pip install -U transformers

💻 使用示例

基础用法

使用 `sentence-transformers` 库

from sentence_transformers import SentenceTransformer
sentences = ["Ceci est un exemple", "deuxième exemple"]

model = SentenceTransformer('h4c5/sts-distilcamembert-base')
embeddings = model.encode(sentences)
print(embeddings)

使用 `transformers` 库

from transformers import AutoTokenizer, AutoModel
import torch

tokenizer = AutoTokenizer.from_pretrained("h4c5/sts-distilcamembert-base")
model = AutoModel.from_pretrained("h4c5/sts-distilcamembert-base")
model.eval()


# Mean Pooling
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[
        0
    ]  # First element of model_output contains all token embeddings
    input_mask_expanded = (
        attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    )
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(
        input_mask_expanded.sum(1), min=1e-9
    )

# Tokenization et calcul des embeddings des tokens
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors="pt")
model_output = model(**encoded_input)

# Mean pooling
sentence_embeddings = mean_pooling(model_output, encoded_input["attention_mask"])

print(sentence_embeddings)

📚 详细文档

评估

本模型在 STSb fr 数据集上进行了评估，以下是评估代码：

from datasets import load_dataset
from sentence_transformers import InputExample, evaluation


def dataset_to_input_examples(dataset):
    return [
        InputExample(
            texts=[example["sentence1"], example["sentence2"]],
            label=example["similarity_score"] / 5.0,
        )
        for example in dataset
    ]


sts_test_dataset = load_dataset("stsb_multi_mt", name="fr", split="test")
sts_test_examples = dataset_to_input_examples(sts_test_dataset)

sts_test_evaluator = evaluation.EmbeddingSimilarityEvaluator.from_input_examples(
    sts_test_examples, name="sts-test"
)

sts_test_evaluator(model, ".")

评估结果

以下是模型在 stsb_multi_mt 数据集（法语数据，测试集）上的评估结果：

模型	皮尔逊相关性	参数数量
`h4c5/sts-camembert-base`	0.837	110M
`Lajavaness/sentence-camembert-base`	0.835	110M
`inokufu/flaubert-base-uncased-xnli-sts`	0.828	137M
`h4c5/sts-distilcamembert-base`	0.817	68M
`sentence-transformers/distiluse-base-multilingual-cased-v2`	0.786	135M

训练

模型使用以下参数进行训练：

数据加载器

torch.utils.data.dataloader.DataLoader，长度为 180，参数如下：

{'batch_size': 32, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

损失函数

sentence_transformers.losses.CosineSimilarityLoss.CosineSimilarityLoss

fit() 方法的参数：

{
    "epochs": 10,
    "evaluation_steps": 1000,
    "evaluator": "sentence_transformers.evaluation.EmbeddingSimilarityEvaluator.EmbeddingSimilarityEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 500,
    "weight_decay": 0.01
}

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: CamembertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

引用

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    journal={"https://arxiv.org/abs/1908.10084"},
}

@inproceedings{sanh2019distilbert,
    title={DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter},
    author={Sanh, Victor and Debut, Lysandre and Chaumond, Julien and Wolf, Thomas},
    booktitle={NeurIPS EMC^2 Workshop},
    journal={https://arxiv.org/abs/1910.01108},
    year={2019}
}

@inproceedings{martin2020camembert,
    title={CamemBERT: a Tasty French Language Model},
    author={Martin, Louis and Muller, Benjamin and Su{\'a}rez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, {\'E}ric Villemonte and Seddah, Djam{\'e} and Sagot, Beno{\^\i}t},
    booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
    journal={https://arxiv.org/abs/1911.03894},
    year={2020}
}

@inproceedings{delestre:hal-03674695,
    TITLE = {{DistilCamemBERT : une distillation du mod{\`e}le fran{\c c}ais CamemBERT}},
    AUTHOR = {Delestre, Cyrile and Amar, Abibatou},
    URL = {https://hal.archives-ouvertes.fr/hal-03674695},
    BOOKTITLE = {{CAp (Conf{\'e}rence sur l'Apprentissage automatique)}},
    ADDRESS = {Vannes, France},
    YEAR = {2022},
    MONTH = Jul,
    KEYWORDS = {NLP ; Transformers ; CamemBERT ; Distillation},
    PDF = {https://hal.archives-ouvertes.fr/hal-03674695/file/cap2022.pdf},
    HAL_ID = {hal-03674695},
    HAL_VERSION = {v1},
    journal={https://arxiv.org/abs/2205.11111},
}