语言:
许可证: apache-2.0
标签:
- "西班牙国家图书馆"
- "西班牙语"
- "bne"
- "roberta-base-bne"
数据集:
评估指标:
示例输入:
- 文本: "透过车窗我看到了吉拉尔达塔,心想这座城市真美啊。"
- 文本: "预防胜于。"
- 文本: "行者无路,行路者自成径。"
- 文本: "我有一个红球和一个黄球。如果把红球给何塞,我就只剩了。"
- 文本: "我有一个红球和一个黄球。如果把黄球给何塞,我就只剩了。"
- 文本: "是西班牙最高峰。"
基于西班牙国家图书馆(BNE)数据训练的RoBERTa基础模型
目录
点击展开
概述
- 架构: roberta-base
- 语言: 西班牙语
- 任务: 掩码填充
- 数据来源: 西班牙国家图书馆(BNE)
模型描述
roberta-base-bne是基于RoBERTa基础架构的西班牙语掩码语言模型。该模型使用迄今为止最大的西班牙语语料库进行预训练,训练数据来自西班牙国家图书馆2009至2019年间网络爬取的570GB清洁去重文本。
用途与限制
本模型可直接用于掩码语言建模任务(可通过推理API或下文示例体验)。同时适用于下游任务的微调,如问答系统、文本分类或命名实体识别等非生成式任务。
使用方法
使用示例:
>>> from transformers import pipeline
>>> from pprint import pprint
>>> unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/roberta-base-bne')
>>> pprint(unmasker("感谢BNE的数据,我们得以<mask>这个语言模型。"))
PyTorch特征提取示例:
>>> from transformers import RobertaTokenizer, RobertaModel
>>> tokenizer = RobertaTokenizer.from_pretrained('PlanTL-GOB-ES/roberta-base-bne')
>>> model = RobertaModel.from_pretrained('PlanTL-GOB-ES/roberta-base-bne')
>>> text = "感谢BNE的数据,我们得以开发这个语言模型。"
>>> encoded_input = tokenizer(text, return_tensors='pt')
>>> output = model(**encoded_input)
局限性与偏差
当前版本尚未进行偏差和毒性评估。由于训练数据来自网络爬取,模型可能存在潜在偏见。示例如下:
>>> unmasker("安东尼奥正在考虑<mask>。")
>>> unmasker("穆罕默德正在考虑<mask>。")
训练过程
训练数据
训练语料包含西班牙国家图书馆2009-2019年爬取的59TB网络数据,经预处理后得到570GB优质西班牙语文本。
语料统计:
语料库 |
文档数量 |
词元数量 |
体积 |
BNE |
2.01亿 |
1357亿 |
570GB |
训练流程
采用50,262词表的BPE编码,在16个计算节点(每节点4块16GB V100 GPU)上进行了48小时的掩码语言模型训练。
评估结果
下游任务微调表现:
数据集 |
指标 |
得分 |
MLDoc |
F1 |
0.9664 |
CoNLL-NERC |
F1 |
0.8851 |
CAPITEL-POS |
F1 |
0.9846 |
XNLI |
准确率 |
0.8016 |
更多评估详见GitHub仓库或论文。
附加信息
作者
巴塞罗那超级计算中心文本挖掘组(bsc-temu@bsc.es)
联系方式
plantl-gob-es@bsc.es
版权
归属西班牙数字化与人工智能国务秘书处(SEDIA)
许可
Apache 2.0许可证
资助
由SEDIA在Plan-TL框架下资助
引用
@article{,
title = {MarIA: 西班牙语语言模型},
author = {Asier Gutiérrez Fandiño等},
journal = {自然语言处理},
year = {2022},
}
免责声明
模型可能存在偏见,使用者需自行承担风险并遵守相关AI法规。模型所有者(SEDIA)和创建者(BSC)不承担第三方使用后果。