语言:
许可证:Apache-2.0
标签:
- "西班牙国家图书馆"
- "西班牙语"
- "BNE"
- "gpt2-large-bne"
数据集:
示例:
- 文本: "GPT语言模型能够"
- 文本: "西班牙国家图书馆是一个公共实体,其宗旨是"
基于西班牙国家图书馆(BNE)数据训练的GPT2-large模型
目录
点击展开
概述
- 架构: gpt2-large
- 语言: 西班牙语
- 任务: 文本生成
- 数据来源: BNE
模型描述
GPT2-large-bne是基于Transformer架构的西班牙语模型。该模型以GPT-2为基础,使用迄今为止最大的西班牙语语料库进行预训练。训练数据包含570GB经过清洗和去重的文本,这些文本来自西班牙国家图书馆在2009至2019年间进行的网络爬取。
预期用途与限制
该模型可直接用于文本生成任务,也可针对下游任务进行微调。
使用方法
以下是使用该模型进行文本生成的示例代码。为保证结果可复现,我们设置了随机种子:
>>> from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, set_seed
>>> tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/gpt2-large-bne")
>>> model = AutoModelForCausalLM.from_pretrained("PlanTL-GOB-ES/gpt2-large-bne")
>>> generator = pipeline('text-generation', tokenizer=tokenizer, model=model)
>>> set_seed(42)
>>> generator("西班牙国家图书馆是一个公共实体,其宗旨是", num_return_sequences=5)
[{'generated_text': '西班牙国家图书馆是一个公共实体,其宗旨是作为传播文化的基础工具。'},
{'generated_text': '西班牙国家图书馆是一个公共实体,其宗旨是促进教育、文化和知识发展,通过互联网利用其馆藏资源开展活动。'},
{'generated_text': '西班牙国家图书馆是一个公共实体,其宗旨是文化出版与传播。'},
{'generated_text': '西班牙国家图书馆是一个公共实体,其宗旨是保存和传播国家图书馆的馆藏,同时作为科学界、学术界和民间社会的交流平台。'},
{'generated_text': '西班牙国家图书馆是一个公共实体,其宗旨是以各种形式保存、研究和传播文献遗产,同时培养和提高信息与图书馆领域专家及研究人员的水平。'}]
以下是使用PyTorch获取文本特征的示例:
>>> from transformers import AutoTokenizer, GPT2Model
>>> tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/gpt2-large-bne")
>>> model = GPT2Model.from_pretrained("PlanTL-GOB-ES/gpt2-large-bne")
>>> text = "西班牙国家图书馆是一个公共实体,其宗旨是"
>>> encoded_input = tokenizer(text, return_tensors='pt')
>>> output = model(**encoded_input)
>>> print(output.last_hidden_state.shape)
torch.Size([1, 14, 1280])
局限性与偏见
在提交时尚未采取措施评估模型中潜在的偏见和毒性内容。但需要特别说明的是,由于训练语料是通过网络爬取技术从多个来源收集的,模型可能存在偏见。我们计划未来在这方面开展研究,届时将更新本模型卡。以下是模型可能产生偏见预测的示例:
>>> from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, set_seed
>>> tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/gpt2-large-bne")
>>> model = AutoModelForCausalLM.from_pretrained("PlanTL-GOB-ES/gpt2-large-bne")
>>> generator = pipeline('text-generation', tokenizer=tokenizer, model=model)
>>> set_seed(42)
>>> generator("男性从事", num_return_sequences=5)
[{'generated_text': '男性从事给父母购买手机的工作,但会向他们收费然后退还给她。'},
{'generated_text': '男性从事Alameda地区的非法街头贩卖,从跳蚤市场或超市偷窃商品。'},
{'generated_text': '男性从事梅利利亚大道的街头贩卖。'},
{'generated_text': '男性从事纹身和身体绘画工作,因其外貌无法胜任家务劳动。'},
{'generated_text': '男性从事对动物的滥捕活动。'}]
>>> set_seed(42)
>>> generator("女性从事", num_return_sequences=5)
[{'generated_text': '女性从事给父母购买手机的工作,但会向他们收费然后不支付账单。'},
{'generated_text': '女性从事街头贩卖,其伴侣在圣诞集市出售优惠券。'},
{'generated_text': '女性从事香水、化妆品、配饰等消费品的批发销售。'},
{'generated_text': '女性从事性服务工作并利用宗教服务牟利。'},
{'generated_text': '女性从事卖淫活动,与受害者的婚姻家庭育有两个女儿。'}]
训练过程
训练数据
西班牙国家图书馆每年会对所有.es域名进行一次爬取。训练语料包含2009至2019年间这些爬取产生的59TB WARC文件。
为获得高质量训练语料,我们通过包括分句、语言检测、过滤不规范语句和去除重复内容等在内的预处理流程进行处理,同时保留文档边界。最终获得2TB的纯净西班牙语语料。进一步全局去重后得到570GB文本。
语料统计信息:
语料库 |
文档数量 |
词元数量 |
大小 |
BNE |
201,080,084 |
135,733,450,668 |
570GB |
训练流程
该架构采用的下一个词元预测作为预训练目标。
GPT2-large-bne模型的配置如下:
- gpt2-large:36层,1280隐藏单元,20个头,7.74亿参数。
训练语料使用原始GPT-2模型的字节级BPE分词器处理,词汇表包含50,262个词元。
GPT2-large-bne的预训练遵循GPT-2的自回归语言模型训练方法。
训练共持续10天,使用32个计算节点,每个节点配备4块16GB显存的NVIDIA V100 GPU。
附加信息
作者
巴塞罗那超级计算中心文本挖掘单元(bsc-temu@bsc.es)
联系方式
如需更多信息,请发送邮件至plantl-gob-es@bsc.es
版权声明
版权归属西班牙数字化与人工智能国务秘书处(SEDIA)(2022年)
许可信息
本作品采用Apache许可证2.0版
资助方
本工作由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL框架下资助。
引用信息
若使用本模型,请引用我们的论文:
@article{,
abstract = {我们要感谢西班牙国家图书馆在数据收集方面做出的巨大努力,以及巴塞罗那超级计算中心与IBM合作的未来计算中心(2020)。本工作由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL框架下资助。},
author = {阿西尔·古铁雷斯·范迪诺、霍尔迪·阿门戈尔·埃斯塔佩、马克·帕米斯、琼·略普·帕劳、华金·西尔维拉·奥坎波、卡西米罗·皮奥·卡里诺、卡梅·阿门塔诺·奥列尔、卡洛斯·罗德里格斯·佩纳戈斯、艾托尔·冈萨雷斯·阿吉雷、玛尔塔·比列加斯},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {自然语言处理},
keywords = {人工智能,基准测试,数据处理,MarIA,自然语言处理,西班牙语建模,西班牙语资源},
publisher = {西班牙自然语言处理学会},
title = {MarIA:西班牙语语言模型},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免责声明
点击展开
本仓库发布的模型旨在通用目的,向第三方开放。这些模型可能存在偏见和/或其他不良偏差。
当第三方部署或提供基于这些模型的系统/服务,或成为模型用户时,应注意其有责任降低使用风险,并确保遵守适用法规,包括关于人工智能使用的法规。
在任何情况下,模型所有者(SEDIA-西班牙数字化与人工智能国务秘书处)和创建者(BSC-巴塞罗那超级计算中心)均不对第三方使用这些模型产生的结果负责。
Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.
En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.