pipeline_tag: 文本分类
language:
license: apache-2.0
tags:
-
"加泰罗尼亚语"
-
"语义文本相似度"
-
"sts-ca"
-
"CaText"
-
"加泰罗尼亚语文本语料库"
datasets:
metrics:
model-index:
- name: roberta-base-ca-cased-sts
results:
- task:
type: 文本分类
dataset:
type: projecte-aina/sts-ca
name: STS-ca
metrics:
- name: 皮尔逊系数
type: Pearson
value: 0.797
用于语义文本相似度的加泰罗尼亚BERTa模型(roberta-base-ca)微调版
目录
点击展开
模型描述
roberta-base-ca-cased-sts 是一个针对加泰罗尼亚语的语义文本相似度(STS)模型,基于roberta-base-ca模型微调而来。该基础模型采用RoBERTa架构,通过从公开可用的语料库和网络爬取数据构建的中等规模语料库进行预训练。
预期用途与限制
roberta-base-ca-cased-sts 模型可用于评估两段文本之间的相似度。该模型受限于其训练数据集,可能无法在所有应用场景中良好泛化。
使用方法
要获取模型预测的正确1分数(分值范围0.0至5.0),请使用以下代码:
from transformers import pipeline, AutoTokenizer
from scipy.special import logit
model = 'projecte-aina/roberta-base-ca-cased-sts'
tokenizer = AutoTokenizer.from_pretrained(model)
pipe = pipeline('text-classification', model=model, tokenizer=tokenizer)
def prepare(sentence_pairs):
sentence_pairs_prep = []
for s1, s2 in sentence_pairs:
sentence_pairs_prep.append(f"{tokenizer.cls_token} {s1}{tokenizer.sep_token}{tokenizer.sep_token} {s2}{tokenizer.sep_token}")
return sentence_pairs_prep
sentence_pairs = [("El llibre va caure per la finestra.", "El llibre va sortir volant."),
("M'agrades.", "T'estimo."),
("M'agrada el sol i la calor", "A la Garrotxa plou molt.")]
predictions = pipe(prepare(sentence_pairs), add_special_tokens=False)
for prediction in predictions:
prediction['score'] = logit(prediction['score'])
print(predictions)
预期输出:
[{'label': 'SIMILARITY', 'score': 2.118301674983813},
{'label': 'SIMILARITY', 'score': 2.1799755855125853},
{'label': 'SIMILARITY', 'score': 0.9511617858568939}]
1 请勿使用小部件输出的分数,因其经过标准化处理,不能反映原始标注值。
局限性与偏差
在提交时,尚未采取措施评估模型中潜在的偏差。但我们充分意识到,由于语料库是通过网络爬虫技术从多个来源收集的,模型可能存在偏差。我们计划未来开展相关研究,如完成评估将更新本模型卡。
训练过程
训练数据
我们使用加泰罗尼亚语STS数据集STS-ca进行训练和评估。
训练流程
模型以16的批次大小和5e-5的学习率训练了5个周期。随后根据开发集的下游任务指标选择最佳检查点,并在测试集上进行最终评估。
评估
变量与指标
本模型通过最大化皮尔逊相关系数与斯皮尔曼相关系数的平均分进行微调。
评估结果
我们在STS-ca测试集上评估了_roberta-base-ca-cased-sts_模型,并与标准的多语言及单语言基线进行比较:
模型 |
STS-ca(皮尔逊得分) |
roberta-base-ca-cased-sts |
79.73 |
mBERT |
74.26 |
XLM-RoBERTa |
61.61 |
更多细节请参见官方GitHub仓库中的微调与评估脚本。
补充信息
作者
巴塞罗那超级计算中心文本挖掘单元(bsc-temu@bsc.es)
联系方式
如需更多信息,请发送邮件至aina@bsc.es
版权声明
版权所有 (c) 2022 巴塞罗那超级计算中心文本挖掘单元
许可信息
Apache License, Version 2.0
资助方
本项目由[加泰罗尼亚政府数字政策与领土部](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en)在AINA计划框架下资助。
引用信息
如使用本资源(数据集或模型),请引用我们最新论文:
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免责声明
点击展开
本仓库发布的模型旨在通用目的,向第三方提供。这些模型可能存在偏差和/或其他不良失真。
当第三方部署或提供基于这些模型的系统/服务时,或成为模型用户时,应注意其有责任降低使用风险,并确保遵守适用法规(包括人工智能相关法规)。
模型所有者及创建者(巴塞罗那超级计算中心)对第三方使用这些模型产生的任何结果概不负责。