language:
- pt
tags:
- albertina-pt*
- albertina-ptpt
- albertina-ptbr
- albertina-ptpt-base
- albertina-ptbr-base
- fill-mask
- bert
- deberta
- portuguese
- encoder
- foundation model
license: mit
datasets:
- dlb/plue
- oscar-corpus/OSCAR-2301
- PORTULAN/glue-ptpt
widget:
- text: >-
葡萄牙美食以丰富的风味和[MASK]闻名,成为该国最宝贵的财富之一。
这是Albertina PT-PT基础版的模型卡片。您可能对Albertina(编码器)和Gervásio(解码器)系列中的其他模型感兴趣。
Albertina 100M PTPT
Albertina 100M PTPT 是一个面向欧洲葡萄牙语(葡萄牙)的基础大语言模型。
它属于BERT家族的编码器,基于Transformer神经网络架构,并在DeBERTa模型基础上开发,针对该语言具有最具竞争力的性能。它以最宽松的许可证免费分发。
Albertina 100M PTPT 由葡萄牙里斯本大学和波尔图大学的联合团队开发。更多详情,请参阅相关论文:
@misc{albertina-pt-fostering,
title={Fostering the Ecosystem of Open Neural Encoders
for Portuguese with Albertina PT-* family},
author={Rodrigo Santos and João Rodrigues and Luís Gomes
and João Silva and António Branco
and Henrique Lopes Cardoso and Tomás Freitas Osório
and Bernardo Leite},
year={2024},
eprint={2403.01897},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
使用或引用此模型时,请使用上述规范引用。
模型描述
此模型卡片针对Albertina 100M PTPT基础版,拥有1亿参数、12层和768的隐藏层大小。
Albertina-PT-PT基础版在MIT许可证下分发。
DeBERTa在MIT许可证下分发。
训练数据
Albertina 100M PTPT在22亿标记的数据集上训练,该数据集来自以下公开可用的欧洲葡萄牙语语料库:
- OSCAR:OSCAR数据集包含包括葡萄牙语在内的100多种语言的文档,广泛用于文献中。它是对Common Crawl数据集的选择结果,从网络爬取,仅保留元数据表明允许爬取的页面,并进行去重和去除部分样板文本等过滤。由于它不区分葡萄牙语变体,我们通过仅保留元数据表明葡萄牙互联网国家代码顶级域的文档进行了额外过滤。我们使用了OSCAR的2023年1月版本,基于Common Crawl的2022年11月/12月版本。
- DCEP:欧洲议会数字语料库是一个多语言语料库,包含所有欧盟官方语言在欧洲议会官方网站上发布的文档。我们保留了其中的欧洲葡萄牙语部分。
- Europarl:欧洲议会会议平行语料库提取自1996年至2011年欧洲议会的会议记录。我们保留了其中的欧洲葡萄牙语部分。
- ParlamentoPT:ParlamentoPT是我们通过收集葡萄牙议会辩论公开可用的转录文档获得的数据集。
预处理
我们使用BLOOM预处理流程过滤了PTPT语料库。我们跳过了默认的停用词过滤,因为这会破坏句法结构,也跳过了语言识别过滤,因为语料库已预先选择为葡萄牙语。
训练
作为代码库,我们使用了DeBERTa V1基础版,针对英语。
为了训练Albertina 100M PTPT,数据集使用原始DeBERTa分词器进行分词,序列截断为128个标记并动态填充。模型使用最大可用内存容量训练,批量大小为3072个样本(每个GPU 192个样本)。我们选择了1e-5的学习率,线性衰减和1万步预热。总共进行了200个训练周期,约18万步。模型在Google Cloud A2 VMs的a2-megagpu-16gb上训练了一天,配备16个GPU、96个vCPU和1.360 GB RAM。
评估
基础模型版本在下游任务上进行了评估,特别是针对GLUE基准测试中几个任务使用的英语数据集的PT-PT翻译版本。
翻译的GLUE任务
我们使用了GLUE-PT,即GLUE的PTPT版本。我们使用DeepL Translate自动翻译了GLUE中的四个相同任务,该工具专门提供从英语到PT-PT的翻译选项。
模型 |
RTE (准确率) |
WNLI (准确率) |
MRPC (F1) |
STS-B (皮尔逊) |
Albertina 900m PTPT |
0.8339 |
0.4225 |
0.9171 |
0.8801 |
Albertina 100m PTPT |
0.6787 |
0.4507 |
0.8829 |
0.8581 |
使用方法
您可以直接使用此模型进行掩码语言建模:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='PORTULAN/albertina-ptpt-base')
>>> unmasker("葡萄牙美食以丰富的风味和[MASK]闻名,成为该国最宝贵的财富之一。")
[{'score': 0.8332648277282715, 'token': 14690, 'token_str': '习俗', 'sequence': '葡萄牙美食以丰富的风味和习俗闻名,成为该国最宝贵的财富之一。'},
{'score': 0.07860890030860901, 'token': 29829, 'token_str': '色彩', 'sequence': '葡萄牙美食以丰富的风味和色彩闻名,成为该国最宝贵的财富之一。'},
{'score': 0.03278181701898575, 'token': 35277, 'token_str': '艺术', 'sequence': '葡萄牙美食以丰富的风味和艺术闻名,成为该国最宝贵的财富之一。'},
{'score': 0.009515956044197083, 'token': 9240, 'token_str': '颜色', 'sequence': '葡萄牙美食以丰富的风味和颜色闻名,成为该国最宝贵的财富之一。'},
{'score': 0.009381960146129131, 'token': 33455, 'token_str': '细微差别', 'sequence': '葡萄牙美食以丰富的风味和细微差别闻名,成为该国最宝贵的财富之一。'}]