Albertina 100M PTBR开源大语言模型 - 助力巴西葡萄牙语理解与处理

首页

Albertina 100m Portuguese Ptbr Encoder

由 PORTULAN 开发

Albertina 100M PTBR是一个面向巴西葡萄牙语的基础大语言模型，属于BERT家族的编码器，基于Transformer神经网络架构，并在DeBERTa模型基础上开发。

大型语言模型

Transformers

其他开源协议:MIT #巴西葡萄牙语编码器 #DeBERTa架构 #掩码语言建模

下载量 131

发布时间 : 5/25/2023

模型简介

该模型是针对巴西葡萄牙语的基础大语言模型，具有1亿参数，采用MIT许可证分发，可用于掩码语言建模等任务。

模型特点

巴西葡萄牙语优化

专门针对巴西葡萄牙语进行训练和优化，提供更准确的语言理解能力。

基于DeBERTa架构

在DeBERTa模型基础上开发，结合了Transformer架构的优势，具有更强的性能表现。

开源许可证

采用MIT许可证分发，允许自由使用和修改。

模型能力

掩码语言建模

文本理解

下游任务微调

使用案例

自然语言处理

语义相似度分析

可用于分析两段文本的语义相似度

在STS-B任务上达到0.8501皮尔逊系数

文本蕴含识别

判断一段文本是否蕴含另一段文本的含义

在RTE任务上达到0.6462准确率

文本处理

自动补全

预测被掩码遮盖的词语

示例中准确预测了'costumes'作为最佳补全词

🚀 Albertina 100M PTBR

Albertina 100M PTBR 是一款面向巴西美式葡萄牙语的基础大语言模型。它属于BERT家族的编码器，基于Transformer神经架构，在DeBERTa模型的基础上开发，在该语言领域具有极具竞争力的性能。此模型免费分发，并遵循宽松的许可协议。

✨ 主要特性

先进架构：基于Transformer架构和DeBERTa模型开发，性能出色。
数据优质：在经过精心筛选的大量文档上进行训练，数据质量高。
许可宽松：遵循MIT许可协议，方便使用和传播。

📦 安装指南

文档未提及安装步骤，暂不提供。

💻 使用示例

基础用法

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='PORTULAN/albertina-ptbr-base')
>>> unmasker("A culinária brasileira é rica em sabores e [MASK], tornando-se um dos maiores patrimônios do país.")

[{'score': 0.9391396045684814, 'token': 14690, 'token_str': ' costumes', 'sequence': 'A culinária brasileira é rica em sabores e costumes, tornando-se um dos maiores patrimônios do país.'},
{'score': 0.04568921774625778, 'token': 29829, 'token_str': ' cores', 'sequence': 'A culinária brasileira é rica em sabores e cores, tornando-se um dos maiores patrimônios do país.'},
{'score': 0.004134135786443949, 'token': 6696, 'token_str': ' drinks', 'sequence': 'A culinária brasileira é rica em sabores e drinks, tornando-se um dos maiores patrimônios do país.'},
{'score': 0.0009097770671360195, 'token': 33455, 'token_str': ' nuances', 'sequence': 'A culinária brasileira é rica em sabores e nuances, tornando-se um dos maiores patrimônios do país.'},
{'score': 0.0008549498743377626, 'token': 606, 'token_str': ' comes', 'sequence': 'A culinária brasileira é rica em sabores e comes, tornando-se um dos maiores patrimônios do país.'}]

高级用法

>>> from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
>>> from datasets import load_dataset

>>> model = AutoModelForSequenceClassification.from_pretrained("PORTULAN/albertina-ptbr-base", num_labels=2)
>>> tokenizer = AutoTokenizer.from_pretrained("PORTULAN/albertina-ptbr-base")
>>> dataset = load_dataset("PORTULAN/glue-ptpt", "rte")

>>> def tokenize_function(examples):
...     return tokenizer(examples["sentence1"], examples["sentence2"], padding="max_length", truncation=True)

>>> tokenized_datasets = dataset.map(tokenize_function, batched=True)

>>> training_args = TrainingArguments(output_dir="albertina-ptpt-rte", evaluation_strategy="epoch")
>>> trainer = Trainer(
...     model=model,
...     args=training_args,
...     train_dataset=tokenized_datasets["train"],
...     eval_dataset=tokenized_datasets["validation"],
... )

>>> trainer.train()

📚 详细文档

模型描述

本模型卡片介绍的是 Albertina 100M PTBR，该模型拥有1亿个参数、12层结构，隐藏层大小为768。

Albertina-PT-BR base 遵循 MIT许可协议进行分发。

DeBERTa 遵循 MIT许可协议。

训练数据

Albertina P100M PTBR 是在从 OSCAR 数据集中精心挑选的37亿个标记的文档上进行训练的。

OSCAR数据集包含了一百多种语言的文档，其中包括葡萄牙语，并且在相关文献中被广泛使用。它是对 Common Crawl 数据集进行筛选的结果，该数据集是从网络上爬取而来的，只保留了元数据表明允许爬取的页面，进行了去重处理，并去除了一些样板内容等。

由于OSCAR数据集没有区分葡萄牙语的不同变体，我们进行了额外的过滤，只保留元数据表明互联网国家代码顶级域为巴西的文档。我们使用的是2023年1月版本的OSCAR，它基于2022年11月/12月版本的Common Crawl。

预处理

我们使用 BLOOM预处理管道对巴西葡萄牙语语料库进行了过滤。我们跳过了默认的停用词过滤，因为这会破坏句法结构，同时也跳过了语言识别过滤，因为语料库已经预先选择为葡萄牙语。

训练

作为代码库，我们采用了适用于英语的 DeBERTa V1 base。

为了训练 Albertina 100M PTBR，我们使用原始的DeBERTa分词器对数据集进行分词，截断序列长度为128个标记，并进行动态填充。

该模型在训练时使用了最大可用内存容量，批量大小为3072个样本（每个GPU 192个样本）。我们选择了1e - 5的学习率，并采用线性衰减和10000步的热身步骤。模型总共训练了150个训练周期，大约进行了180000步。

该模型在配备16个GPU、96个vCPU和1360GB内存的Google Cloud A2 VMs（a2 - megagpu - 16gb）上训练了一天。

评估

基础模型版本在下游任务上进行了评估，具体是对广泛使用的 GLUE基准测试中部分任务所使用的英语数据集进行巴西葡萄牙语翻译后的数据集。

GLUE任务翻译

我们采用了 PLUE（葡萄牙语语言理解评估），这是一个通过将GLUE自动翻译成 巴西葡萄牙语 而获得的数据集。我们处理了PLUE中的四个任务，具体如下：

两个相似度任务：MRPC（用于检测两个句子是否互为释义）和STS - B（用于语义文本相似度）。
两个推理任务：RTE（用于识别文本蕴含关系）和WNLI（用于共指和自然语言推理）。

模型	RTE（准确率）	WNLI（准确率）	MRPC（F1值）	STS - B（皮尔逊系数）
Albertina 900M PTBR No - brWaC	0.7798	0.5070	0.9167	0.8743
Albertina 900M PTBR	0.7545	0.4601	0.9071	0.8910
Albertina 100M PTBR	0.6462	0.5493	0.8779	0.8501

🔧 技术细节

文档未提供足够详细的技术实现细节，暂不提供。

📄 许可证

Albertina-PT-BR base 遵循 MIT许可协议进行分发。DeBERTa 遵循 MIT许可协议。

📚 相关引用

当使用或引用此模型时，请使用以下规范引用：

@misc{albertina-pt-fostering,
      title={Fostering the Ecosystem of Open Neural Encoders
            for Portuguese with Albertina PT-* family}, 
      author={Rodrigo Santos and João Rodrigues and Luís Gomes
              and João Silva and António Branco
              and Henrique Lopes Cardoso and Tomás Freitas Osório
              and Bernardo Leite},
      year={2024},
      eprint={2403.01897},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

🙏 致谢

本文所报告的研究部分得到了以下机构的支持：

PORTULAN CLARIN — 语言科学与技术研究基础设施，由Lisboa 2020、Alentejo 2020和FCT — 科学技术基金会根据PINFRA/22117/2016资助。
研究项目ALBERTINA - 葡萄牙语基础编码器模型与人工智能，由FCT — 科学技术基金会根据CPCA - IAC/AV/478394/2022资助。
创新项目ACCELERAT.AI - 多语言智能客服中心，由IAPMEI，I.P. - 竞争力与创新局根据Plano de Recuperação e Resiliência的RE - C05 - i01.01 — 再工业化动员议程/联盟的C625734525 - 00462629资助。
LIACC - 人工智能与计算机科学实验室，由FCT — 科学技术基金会根据FCT/UID/CEC/0027/2020资助。

模型家族

模型家族	详情
Albertina 1.5B PTPT	-
Albertina 1.5B PTBR	-
Albertina 1.5B PTPT 256	-
Albertina 1.5B PTBR 256	-
Albertina 900M PTPT	-
Albertina 900M PTBR	-
Albertina 100M PTPT	-
Albertina 100M PTBR	-