CrossEncoder-camembert-large开源模型 - 免费计算法语句子语义相似度分值

首页

Crossencoder Camembert Large

由 dangvantuan 开发

这是一个基于CamemBERT的法语句子相似度计算模型，用于预测两个句子之间的语义相似度分值。

文本嵌入

Transformers

法语开源协议:Apache-2.0 #法语语义相似度 #高精度排序 #句子对评分

下载量 167

发布时间 : 3/28/2022

模型简介

该模型使用Cross-Encoder架构训练，专门用于计算法语句子对的语义相似度，输出0-1之间的相似度分值。

模型特点

高效句子相似度计算

专门优化用于法语句子对的相似度计算任务

基于CamemBERT-large

使用强大的法语预训练模型CamemBERT-large作为基础架构

高准确度

在法语STS测试集上达到88.16的皮尔逊相关系数

模型能力

法语句子相似度计算

语义相关性评分

文本对比较

使用案例

文本匹配

问答系统

评估用户问题与候选答案的匹配程度

提高问答系统的准确率

信息检索

重排序检索结果，提高相关性

提升搜索结果质量

自然语言处理

文本去重

识别语义相似的文本内容

有效减少重复内容

🚀 句子相似度跨编码器模型

这是一个用于句子相似度任务的跨编码器模型，基于sentence-transformers训练，可对两个句子的语义相似度进行打分。

🚀 快速开始

本模型是用于句子相似度任务的跨编码器，它基于sentence-transformers库的跨编码器类进行训练。

✨ 主要特性

基于camembert-base架构，适用于法语句子相似度任务。
可预测两个句子语义相似度的得分，范围在 0 到 1 之间。

📦 安装指南

若要使用此模型，需先安装sentence-transformers库：

pip install -U sentence-transformers

💻 使用示例

基础用法

from sentence_transformers import CrossEncoder
model = CrossEncoder('dangvantuan/CrossEncoder-camembert-large', max_length=128)
scores = model.predict([('Un avion est en train de décoller.', "Un homme joue d'une grande flûte."), ("Un homme étale du fromage râpé sur une pizza.", "Une personne jette un chat au plafond") ])

高级用法

from sentence_transformers.readers import InputExample
from sentence_transformers.cross_encoder.evaluation import CECorrelationEvaluator
from datasets import load_dataset
def convert_dataset(dataset):
    dataset_samples=[]
    for df in dataset:
        score = float(df['similarity_score'])/5.0  # Normalize score to range 0 ... 1
        inp_example = InputExample(texts=[df['sentence1'], 
                                    df['sentence2']], label=score)
        dataset_samples.append(inp_example)
    return dataset_samples

# Loading the dataset for evaluation
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")

# Convert the dataset for evaluation

# For Dev set:
dev_samples = convert_dataset(df_dev)
val_evaluator = CECorrelationEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")

# For Test set

test_samples = convert_dataset(df_test)
test_evaluator = CECorrelationEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(models, output_path="./")