语言:
许可证: Apache-2.0
标签:
- "西班牙国家图书馆"
- "西班牙语"
- "BNE"
- "问答系统"
- "问答任务"
数据集:
评估指标:
模型索引:
- 名称: roberta-base-bne-sqac
结果:
- 任务:
类型: 问答系统
数据集:
类型: "PlanTL-GOB-ES/SQAC"
名称: SQAC
评估指标:
基于西班牙语RoBERTa-base模型在BNE语料上训练并针对西班牙问答语料库(SQAC)微调的模型
目录
点击展开
模型描述
roberta-base-bne-sqac是一个西班牙语问答(QA)模型,基于roberta-base-bne模型微调而来。该基础模型是RoBERTa架构,使用迄今为止最大的西班牙语语料库进行预训练,包含总计570GB经过清洗和去重的文本数据。这些数据源自西班牙国家图书馆(Biblioteca Nacional de España)在2009至2019年间进行的网络爬取。
预期用途与限制
roberta-base-bne-sqac模型可用于抽取式问答任务。该模型的性能受限于其训练数据集,可能无法在所有应用场景中良好泛化。
使用方法
from transformers import pipeline
nlp = pipeline("question-answering", model="PlanTL-GOB-ES/roberta-base-bne-sqac")
text = "¿Dónde vivo?"
context = "Me llamo Wolfgang y vivo en Berlin"
qa_results = nlp(text, context)
print(qa_results)
局限性与偏差
在提交时,尚未采取措施评估模型中可能存在的偏差。但我们充分意识到,由于语料库是通过多种网络来源的爬取技术收集的,模型可能存在偏差。我们计划未来在这方面开展研究,如完成相关研究,将更新本模型卡片。
训练过程
训练数据
我们使用西班牙语问答数据集SQAC语料库进行训练和评估。
训练流程
模型以16的批次大小和5e-5的学习率训练了5个周期。我们根据开发集上的下游任务指标选择最佳检查点,然后在测试集上进行评估。
评估结果
我们在SQAC测试集上评估了roberta-base-bne-sqac,并与标准的多语言和单语言基线进行比较:
模型 |
SQAC (F1值) |
roberta-large-bne-sqac |
82.02 |
roberta-base-bne-sqac |
79.23 |
BETO |
79.23 |
mBERT |
75.62 |
BERTIN |
76.78 |
ELECTRA |
73.83 |
更多细节请参见官方GitHub仓库中的微调和评估脚本。
补充信息
作者
巴塞罗那超级计算中心(BSC)文本挖掘单元(TeMU) (bsc-temu@bsc.es)
联系方式
如需更多信息,请发送邮件至plantl-gob-es@bsc.es
版权声明
版权归属西班牙数字化与人工智能国务秘书处(SEDIA) (2022年)
许可信息
Apache许可证2.0版
资助方
本工作由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL框架下资助。
引用信息
若使用本模型,请引用我们的论文:
@article{,
abstract = {我们要感谢西班牙国家图书馆在数据收集方面做出的巨大努力,以及巴塞罗那超级计算中心与IBM联合创立的未来计算中心(2020年)。本工作由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL框架下资助。},
author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {Procesamiento del Lenguaje Natural},
keywords = {人工智能,基准测试,数据处理,MarIA,自然语言处理,西班牙语建模,西班牙语资源},
publisher = {西班牙自然语言处理学会},
title = {MarIA: 西班牙语语言模型},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免责声明
本仓库发布的模型旨在满足通用目的,并向第三方提供。这些模型可能存在偏差和/或其他不良失真。
当第三方部署或向其他方提供使用这些模型(或基于这些模型的系统)的系统和服务,或成为模型用户时,应注意他们有责任减轻使用风险,并确保遵守适用法规,包括关于人工智能使用的法规。
在任何情况下,模型所有者(SEDIA-西班牙数字化与人工智能国务秘书处)和创建者(BSC-巴塞罗那超级计算中心)均不对第三方使用这些模型产生的任何结果负责。
本仓库发布的模型旨在满足通用目的,并向第三方提供。这些模型可能存在偏差和/或其他不良失真。
当第三方部署或向其他方提供使用这些模型(或基于这些模型的系统)的系统和服务,或成为模型用户时,应注意他们有责任减轻使用风险,并确保遵守适用法规,包括关于人工智能使用的法规。
在任何情况下,模型所有者(SEDIA-西班牙数字化与人工智能国务秘书处)和创建者(BSC-巴塞罗那超级计算中心)均不对第三方使用这些模型产生的任何结果负责。