语言:
许可证: Apache-2.0
标签:
- "加泰罗尼亚语"
- "teca"
- "CaText"
- "加泰罗尼亚语文本语料库"
数据集:
评估指标:
模型索引:
- 名称: roberta-base-ca-cased-te
结果:
- 任务:
类型: 文本分类 # 必填。例如: 自动语音识别
数据集:
类型: projecte-aina/teca
名称: TECA
评估指标:
- 名称: 准确率
类型: 准确率
值: 0.7912139892578125
小部件:
用于文本蕴含任务的加泰罗尼亚语BERTa模型(roberta-base-ca)
目录
点击展开
模型描述
roberta-base-ca-cased-te是一个针对加泰罗尼亚语的文本蕴含(TE)模型,基于roberta-base-ca模型微调而来。该基础模型采用RoBERTa架构,通过从公开语料库和爬虫收集的中等规模数据集进行预训练。
预期用途与限制
roberta-base-ca-cased-te模型可用于识别文本蕴含关系。该模型的性能受限于其训练数据,可能无法在所有应用场景中泛化良好。
使用方法
使用示例:
from transformers import pipeline
from pprint import pprint
nlp = pipeline("text-classification", model="projecte-aina/roberta-base-ca-cased-te")
example = "我喜欢阳光和温暖。</s></s>加罗查经常下雨。"
te_results = nlp(example)
pprint(te_results)
局限性与偏差
在提交时尚未采取具体措施评估模型潜在的偏差。需要注意的是,由于训练语料来自网络爬取,模型可能存在偏差。我们计划未来开展相关研究,届时将更新本说明文档。
训练过程
训练数据
使用加泰罗尼亚语文本蕴含数据集TE-ca进行训练和评估。
训练流程
模型训练批大小为16,学习率5e-5,共训练5个周期。根据开发集的下游任务指标选择最佳检查点,并在测试集上进行最终评估。
评估
变量与指标
模型优化目标为准确率最大化。
评估结果
在TE-ca测试集上对比多语言和单语言基线模型的表现:
模型 |
TE-ca(准确率) |
BERTa |
79.12 |
mBERT |
74.78 |
XLM-RoBERTa |
75.44 |
更多细节请参考官方GitHub仓库中的微调与评估脚本。
补充信息
作者
巴塞罗那超级计算中心文本挖掘单元(bsc-temu@bsc.es)
联系方式
如需更多信息,请发送邮件至aina@bsc.es
版权声明
© 2022 巴塞罗那超级计算中心文本挖掘单元
许可信息
Apache License, Version 2.0
资助方
本项目由加泰罗尼亚政府数字政策和领土部资助,属于AINA计划框架。
引用信息
若使用本资源(数据集或模型),请引用我们的最新论文:
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免责声明
点击展开
本仓库发布的模型为通用目的设计,可供第三方使用。这些模型可能存在偏差或其他不良失真。
当第三方部署或提供基于这些模型的系统/服务时,应注意其有责任降低使用风险,并确保符合适用法规(包括人工智能相关法规)。
模型所有者及创建者(巴塞罗那超级计算中心)不对第三方使用这些模型产生的任何结果承担责任。