语言:
许可证: Apache-2.0
标签:
- "西班牙国家图书馆"
- "西班牙语"
- "BNE"
- "gpt2-base-bne"
数据集:
示例:
- 文本: "GPT语言模型能够"
- 文本: "西班牙国家图书馆是一个公共实体,其宗旨是"
基于西班牙国家图书馆(BNE)数据训练的GPT2基础模型(gpt2-base-bne)
目录
点击展开
概述
- 架构: gpt2-base
- 语言: 西班牙语
- 任务: 文本生成
- 数据来源: BNE
模型描述
GPT2-base-bne是基于Transformer架构的西班牙语模型。该模型基于GPT-2架构,使用迄今为止最大的西班牙语语料库进行预训练。训练数据来自西班牙国家图书馆2009至2019年间网络爬取的内容,经过清洗和去重处理后共计570GB。
用途与限制
该模型可直接用于文本生成任务,也可在下游任务中进行微调。
使用方法
以下是使用示例:
可直接使用pipeline进行文本生成。为保证结果可复现,我们设置了随机种子:
>>> from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, set_seed
>>> tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> model = AutoModelForCausalLM.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> generator = pipeline('text-generation', tokenizer=tokenizer, model=model)
>>> set_seed(42)
>>> generator("西班牙国家图书馆是一个公共实体,其宗旨是", num_return_sequences=5)
在PyTorch中获取文本特征的方法:
>>> from transformers import AutoTokenizer, GPT2Model
>>> tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> model = GPT2Model.from_pretrained("PlanTL-GOB-ES/gpt2-base-bne")
>>> text = "西班牙国家图书馆是一个公共实体,其宗旨是"
>>> encoded_input = tokenizer(text, return_tensors='pt')
>>> output = model(**encoded_input)
>>> print(output.last_hidden_state.shape)
torch.Size([1, 14, 768])
局限性与偏见
当前版本尚未进行偏见和毒性评估。由于训练数据来自网络爬取,模型可能存在偏见。以下是模型可能产生偏见预测的示例:
>>> generator("男性从事", num_return_sequences=5)
>>> generator("女性从事", num_return_sequences=5)
训练过程
训练数据
西班牙国家图书馆每年爬取所有.es域名。训练语料包含2009-2019年间59TB的WARC文件。经过句子分割、语言检测、格式过滤和内容去重等预处理后,获得2TB高质量西班牙语语料,最终经全局去重得到570GB文本。
语料统计信息:
语料库 |
文档数量 |
词元数量 |
大小 |
BNE |
201,080,084 |
135,733,450,668 |
570GB |
训练流程
模型采用下一词预测目标进行训练。
GPT2-base-bne配置:
- gpt2-base: 12层,768隐藏层,12头,1.17亿参数
使用原始GPT-2的BPE分词器,词表大小50,262。训练耗时3天,使用16个计算节点(每个节点4块16GB显存的NVIDIA V100 GPU)。
附加信息
作者
巴塞罗那超级计算中心文本挖掘组(bsc-temu@bsc.es)
联系方式
如需更多信息,请发送邮件至plantl-gob-es@bsc.es
版权声明
©西班牙数字化与人工智能国务秘书处(SEDIA)(2022)
许可信息
Apache License 2.0
资助方
本项目由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL框架下资助。
引用信息
如使用本模型,请引用我们的论文:
@article{,
author = {Asier Gutiérrez Fandiño等},
title = {MarIA: 西班牙语言模型},
year = {2022},
}
免责声明
点击展开
本模型为通用目的开发,可能存在偏见或其他不良偏差。第三方使用本模型时需自行承担风险并遵守相关法律法规,包括人工智能使用规范。模型所有者(SEDIA)和创建者(BSC)不对第三方使用结果承担任何责任。