pipeline_tag: 文本排序
language: 法语
datasets:
- stsb_multi_mt
tags:
- 文本
- 句子相似度
- 句子嵌入
- camembert-base
license: apache-2.0
model-index:
- name: Van Tuan DANG开发的CrossEncoder-camembert-large模型
results:
- task:
type: 文本相似度
name: 句子嵌入
dataset:
name: 法语文本相似度
type: stsb_multi_mt
args: fr
metrics:
- type: 皮尔逊相关系数
value: 90.34
name: 测试集皮尔逊相关系数
模型
用于句子相似度的交叉编码器模型
本模型是对dangvantuan/CrossEncoder-camembert-large的改进版本,具有更强的鲁棒性和更优性能
训练数据
本模型基于STS基准数据集训练,并融合了增强型SBERT技术。通过联合使用CrossEncoder-camembert-large和dangvantuan/sentence-camembert-large两个模型进行配对采样策略。该模型可预测0到1之间的分数,用于衡量两个句子的语义相似度。
使用方法(Sentence-Transformers)
安装sentence-transformers后即可轻松使用:
pip install -U sentence-transformers
调用示例:
from sentence_transformers import CrossEncoder
model = CrossEncoder('Lajavaness/CrossEncoder-camembert-large', max_length=512)
scores = model.predict([('一架飞机正在起飞。', "一个男人在吹奏长笛"), ("一个男人往披萨上撒芝士碎", "某人把猫抛向天花板")])
评估
在法语STS测试数据上的评估方法:
from sentence_transformers.readers import InputExample
from sentence_transformers.cross_encoder.evaluation import CECorrelationEvaluator
from datasets import load_dataset
def convert_dataset(dataset):
dataset_samples=[]
for df in dataset:
score = float(df['similarity_score'])/5.0
inp_example = InputExample(texts=[df['sentence1'],
df['sentence2']], label=score)
dataset_samples.append(inp_example)
return dataset_samples
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")
dev_samples = convert_dataset(df_dev)
val_evaluator = CECorrelationEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")
test_samples = convert_dataset(df_test)
test_evaluator = CECorrelationEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(models, output_path="./")
测试结果:
性能指标采用皮尔逊和斯皮尔曼相关系数:
皮尔逊得分
模型 |
STS-B |
STS12-fr |
STS13-fr |
STS14-fr |
STS15-fr |
STS16-fr |
SICK-fr |
本模型 |
88.63 |
90.76 |
88.24 |
90.22 |
92.23 |
82.31 |
84.61 |
原版模型 |
88.16 |
90.12 |
88.36 |
89.86 |
92.04 |
82.01 |
84.23 |
斯皮尔曼得分
模型 |
STS-B |
STS12-fr |
STS13-fr |
STS14-fr |
STS15-fr |
STS16-fr |
SICK-fr |
本模型 |
88.03 |
84.87 |
87.88 |
89.10 |
92.16 |
82.50 |
80.78 |
原版模型 |
87.57 |
84.24 |
88.01 |
88.62 |
91.99 |
82.16 |
80.38 |