语言:
许可证: Apache-2.0
标签:
- "西班牙国家图书馆"
- "西班牙语"
- "BNE"
- "问答系统"
- "问答"
数据集:
评估指标:
模型索引:
- 名称: roberta-large-bne-sqac
结果:
- 任务:
类型: 问答系统
数据集:
类型: "PlanTL-GOB-ES/SQAC"
名称: SQAC
评估指标:
基于BNE训练的大型西班牙语RoBERTa模型,针对西班牙语问答语料库(SQAC)微调
目录
点击展开
模型描述
roberta-large-bne-sqac是一个西班牙语问答(QA)模型,基于roberta-large-bne模型微调而来。该基础模型是采用RoBERTa架构的大型模型,使用迄今为止最大的西班牙语语料库进行预训练,包含总计570GB经过清洗和去重的文本数据。这些数据来自西班牙国家图书馆2009至2019年间进行的网络爬取。
预期用途与限制
roberta-large-bne-sqac模型可用于抽取式问答任务。该模型的性能受限于其训练数据集,可能无法在所有应用场景中都表现良好。
使用方法
from transformers import pipeline
nlp = pipeline("question-answering", model="PlanTL-GOB-ES/roberta-large-bne-sqac")
text = "¿Dónde vivo?"
context = "Me llamo Wolfgang y vivo en Berlin"
qa_results = nlp(text, context)
print(qa_results)
局限性与偏差
在提交时,我们尚未采取措施评估模型中可能存在的偏差。但需要说明的是,由于训练语料是通过多源网络爬取技术收集的,我们的模型可能存在偏差。我们计划未来在这方面开展研究,如有进展将更新本模型卡。
训练过程
训练数据
我们使用西班牙语问答数据集SQAC语料库进行训练和评估。
训练流程
模型训练采用16的批次大小和1e-5的学习率,共训练5个周期。我们根据开发集的下游任务指标选择最佳检查点,并在测试集上进行最终评估。
评估结果
我们在SQAC测试集上评估了roberta-large-bne-sqac模型,并与标准的多语言和单语言基线进行比较:
模型 |
SQAC (F1值) |
roberta-large-bne-sqac |
82.02 |
roberta-base-bne-sqac |
79.23 |
BETO |
79.23 |
mBERT |
75.62 |
BERTIN |
76.78 |
ELECTRA |
73.83 |
更多细节请参考官方GitHub仓库中的微调和评估脚本。
补充信息
作者
巴塞罗那超级计算中心文本挖掘单元(bsc-temu@bsc.es)
联系方式
如需更多信息,请发送邮件至plantl-gob-es@bsc.es
版权声明
版权归属西班牙数字化与人工智能国务秘书处(SEDIA)(2022年)
许可信息
Apache许可证2.0版
资助方
本工作由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL框架下资助。
引用信息
若使用本模型,请引用我们的论文:
@article{,
abstract = {我们要感谢西班牙国家图书馆在数据收集方面做出的巨大努力,以及巴塞罗那超级计算中心与IBM合作的未来计算中心(2020年)。本工作由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL框架下资助。},
author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {Procesamiento del Lenguaje Natural},
keywords = {人工智能,基准测试,数据处理,MarIA,自然语言处理,西班牙语建模,西班牙语资源},
publisher = {西班牙自然语言处理学会},
title = {MarIA: 西班牙语语言模型},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免责声明
本仓库发布的模型旨在通用目的,可供第三方使用。这些模型可能存在偏差和/或其他不良失真。
当第三方部署或提供基于这些模型的系统/服务时,或成为模型用户时,应当注意他们有责任降低使用风险,并确保遵守适用法规,包括关于人工智能使用的法规。
在任何情况下,模型所有者(SEDIA-西班牙数字化与人工智能国务秘书处)和创建者(BSC-巴塞罗那超级计算中心)均不对第三方使用这些模型产生的结果负责。
Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.
En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.