language:
- pt
tags:
- albertina-pt*
- albertina-100m-portuguese-ptpt
- albertina-100m-portuguese-ptbr
- albertina-900m-portuguese-ptpt
- albertina-900m-portuguese-ptbr
- albertina-1b5-portuguese-ptpt
- albertina-1b5-portuguese-ptbr
- fill-mask
- bert
- deberta
- portuguese
- encoder
- foundation model
license: mit
datasets:
- PORTULAN/glue-ptpt
widget:
- text: >-
葡萄牙美食以丰富的风味和[MASK]闻名,成为该国最珍贵的瑰宝之一。
这是Albertina 1.5B PTBR的模型卡片。您可能对Albertina(编码器)和Gervásio(解码器)系列中的其他模型感兴趣。
Albertina 1.5B PTBR
Albertina 1.5B PTBR 是一个面向巴西葡萄牙语变体的基础大型语言模型。
它属于BERT家族的编码器,基于Transformer神经网络架构,并在DeBERTa模型基础上开发,针对该语言具有最具竞争力的性能。它有不同版本,分别针对葡萄牙语的不同变体进行训练,即欧洲变体(葡萄牙使用的PTPT)和美洲变体(巴西使用的PTBR),并在开放许可下免费公开发布和分发。
Albertina 1.5B PTBR 是针对巴西葡萄牙语变体的版本,据我们所知,这是专门为该语言和变体设计的编码器,在首次发布时,凭借其15亿参数和性能得分,为该语言设立了新的技术标杆,并公开供重用。
它属于BERT家族的编码器,基于Transformer神经网络架构,并在DeBERTa模型基础上开发,针对该语言具有最具竞争力的性能。它在最宽松的许可下免费分发。
Albertina 1.5B PTBR 由葡萄牙里斯本大学和波尔图大学的联合团队开发。完整描述请参阅相关出版物:
@misc{albertina-pt-fostering,
title={Fostering the Ecosystem of Open Neural Encoders
for Portuguese with Albertina PT-* family},
author={Rodrigo Santos and João Rodrigues and Luís Gomes
and João Silva and António Branco
and Henrique Lopes Cardoso and Tomás Freitas Osório
and Bernardo Leite},
year={2024},
eprint={2403.01897},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
使用或引用该模型时,请使用上述规范引用。
模型描述
此模型卡片适用于Albertina 1.5B PTBR,具有15亿参数,48层和1536的隐藏大小。
Albertina 1.5B PTBR在MIT许可下分发。
DeBERTa在MIT许可下分发。
训练数据
Albertina 1.5B PTBR 在一个360亿标记的数据集上训练,该数据集通过收集以下来源的巴西葡萄牙语公开可用语料库构建:
- CulturaX:CulturaX是一个多语言语料库,免费供研究和AI开发使用,通过结合和广泛清理其他两个大型数据集mC4和OSCAR创建。它是从Common Crawl数据集中选择的结果,该数据集从网络爬取,仅保留元数据指示允许爬取的页面,执行去重,并移除一些样板文本等过滤器。由于它不区分葡萄牙语变体,我们通过仅保留元数据指示葡萄牙互联网国家代码顶级域名的文档进行了额外过滤。
预处理
我们使用BLOOM预处理管道过滤了PTBR语料库。我们跳过了默认的停用词过滤,因为它会破坏句法结构,也跳过了语言识别过滤,因为语料库已预选为葡萄牙语。
训练
作为代码库,我们使用了DeBERTa V2 xxlarge,针对英语。
为了训练Albertina 1.5B PTBR,数据集使用原始DeBERTa分词器进行分词,128标记序列截断和动态填充,训练25万步,256标记序列截断训练8万步(Albertina 1.5B PTBR 256),最后512标记序列截断训练6万步。这些步骤对应于Google Cloud A2节点a2-megagpu-16gb上48小时的计算设置(128标记输入序列),256标记输入序列24小时的计算和512标记输入序列24小时的计算。我们选择了1e-5的学习率,线性衰减和1万步预热。
性能
我们使用了extraGLUE,这是PTBR版本的GLUE和SUPERGLUE基准。我们使用DeepL Translate自动翻译了GLUE和SUPERGLUE的任务,该工具专门提供从英语到PTPT或PTBR的翻译选项。
模型 |
RTE (准确率) |
WNLI (准确率) |
MRPC (F1) |
STS-B (皮尔逊) |
COPA (准确率) |
CB (F1) |
MultiRC (F1) |
BoolQ (准确率) |
Albertina 1.5B PTBR |
0.8676 |
0.4742 |
0.8622 |
0.9007 |
0.7767 |
0.6372 |
0.7667 |
0.8654 |
Albertina 1.5B PTBR 256 |
0.8123 |
0.4225 |
0.8638 |
0.8968 |
0.8533 |
0.6884 |
0.6799 |
0.8509 |
Albertina 900M PTBR |
0.7545 |
0.4601 |
0.9071 |
0.8910 |
0.7767 |
0.5799 |
0.6731 |
0.8385 |
BERTimbau (335M) |
0.6446 |
0.5634 |
0.8873 |
0.8842 |
0.6933 |
0.5438 |
0.6787 |
0.7783 |
Albertina 100M PTBR |
0.6582 |
0.5634 |
0.8149 |
0.8489 |
n.a. |
0.4771 |
0.6469 |
0.7537 |
|
|
|
|
|
|
|
|
|
DeBERTa 1.5B (英语) |
0.7112 |
0.5634 |
0.8545 |
0.0123 |
0.5700 |
0.4307 |
0.3639 |
0.6217 |
DeBERTa 100M (英语) |
0.5716 |
0.5587 |
0.8060 |
0.8266 |
n.a. |
0.4739 |
0.6391 |
0.6838 |
如何使用
您可以直接使用管道进行掩码语言建模:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='PORTULAN/albertina-1b5-portuguese-ptbr-encoder')
>>> unmasker("葡萄牙美食以丰富的风味和[MASK]闻名,成为该国最珍贵的瑰宝之一。")
[{'score': 0.8332648277282715, 'token': 14690, 'token_str': '传统', 'sequence': '葡萄牙美食以丰富的风味和传统闻名,成为该国最珍贵的瑰宝之一。'},
{'score': 0.07860890030860901, 'token': 29829, 'token_str': '色彩', 'sequence': '葡萄牙美食以丰富的风味和色彩闻名,成为该国最珍贵的瑰宝之一。'},
{'score': 0.03278181701898575, 'token': 35277, 'token_str': '艺术', 'sequence': '葡萄牙美食以丰富的风味和艺术闻名,成为该国最珍贵的瑰宝之一。'},
{'score': 0.009515956044197083, 'token': 9240, 'token_str': '颜色', 'sequence': '葡萄牙美食以丰富的风味和颜色闻名,成为该国最珍贵的瑰宝之一。'},
{'score': 0.009381960146129131, 'token': 33455, 'token_str': '细微差别', 'sequence': '葡萄牙美食以丰富的风味和细微差别闻名,成为该国最珍贵的瑰宝之一。'}]