许可证: MIT
语言:
- 葡萄牙语
标签:
- gervasio-pt*
- gervasio-ptpt
- gervasio-ptbr
- gervasio-7b-portuguese-ptpt-decoder
- gervasio-7b-portuguese-ptbr-decoder
- portulan
- albertina-pt*
- clm
- gpt
- 葡萄牙语
- 解码器
- 基础模型
数据集:
- PORTULAN/extraglue
- PORTULAN/extraglue-instruct
这是Gervásio 7B PTBR解码器的模型卡片。
您可能对Albertina(编码器)和Gervásio(解码器)系列中的其他模型感兴趣。
Gervásio 7B PTBR
Gervásio PT* 是一个完全开源的葡萄牙语解码器。
它是LLaMA家族的一个解码器,基于Transformer神经网络架构,并在LLaMA-2 7B模型的基础上开发。
通过额外的训练,它进一步得到了改进,训练资源包括为此目的准备的葡萄牙语新指令数据集(extraGLUE-Instruct)。
它有不同版本,针对葡萄牙语的不同变体进行了训练,
即针对葡萄牙使用的欧洲变体(gervasio-7b-portuguese-ptpt-decoder)和巴西使用的美洲变体(gervasio-7b-portuguese-ptbr-decoder)。
Gervásio的所有版本在开放许可证下免费公开分发,包括用于研究和商业目的,并且由于其大小,可以在消费级硬件上运行。
Gervásio 7B PTBR由里斯本大学信息学系NLX-自然语言与语音小组开发。
其全名为Gervásio Produz Textos em Português,对应的自然缩写为GPT PT,
更简称为Gervásio PT*,或更简单地称为Gervásio。
Gervásio 7B PTBR由里斯本大学的一个团队开发。
如需完整详细描述,请参阅相关出版物:
@misc{gervasio,
title={Advancing Generative AI for Portuguese with
Open Decoder Gervásio PT-*},
author={Rodrigo Santos, João Silva, Luís Gomes,
João Rodrigues, António Branco},
year={2024},
eprint={2402.18766},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
使用或引用此模型时,请使用上述规范引用。
模型描述
此模型卡片适用于Gervásio 7B PTBR,具有70亿参数,隐藏层大小为4,096单元,中间层大小为11,008单元,32个注意力头,32个隐藏层,以及使用SentencePiece实现的字节对编码(BPE)算法获得的标记器,词汇量为32,000。
Gervásio 7B PTBR在MIT许可证下分发。
训练数据
Gervásio 7B PTBR通过标准监督微调进行训练。为了与英语主流基准保持一定对齐,我们使用了GLUE和SuperGLUE集合中的任务和相应数据集。
我们选择了那些通过机器翻译成葡萄牙语后,在目标语言中能保留相关语言特性的数据集。
从GLUE中,我们选择了以下四个任务:
- MRPC(复述检测)。
- RTE(文本蕴含识别)。
- STS-B(语义文本相似性)。
- WNLI(共指和自然语言推理)。
从SuperGLUE中,我们加入了另外四个任务:
- BoolQ(是/否问题回答)。
- CB(三标签推理)。
- COPA(推理)。
- MultiRC(问题回答)。
这些数据集被机器翻译成美洲葡萄牙语,并来自extraGLUE数据集。
此外,我们为每个任务手动制作了指令模板。这些模板将数据集中的各个字段排列成提示,并收集到extraGLUE-instruct数据集中。
我们还采用了数据增强技术来增加数据集的规模和多样性。这包括以各种方式重新利用任务,例如从MultiRC生成答案,从BoolQ生成问题,以及其他相关修改。
训练细节
我们应用了监督微调,采用因果语言建模训练目标,并在微调过程中使用了零输出技术。具体来说,虽然整个提示在微调过程中都受到关注,但只有响应标记受到反向传播的影响。
在超参数方面,模型以2 * 10^-5的学习率、0.1的权重衰减、两轮无热身的训练进行训练。为了确保每一步反向传播的标记数量相同,我们使用了512个标记的输入序列,批量大小为16,累积步数为16。
由于硬件限制,输入序列长度较短(512),与基础模型(4096)相比,我们没有采用通常的做法将所有训练示例连接起来,然后分成具有相同输入序列长度的批次,而是将每个示例单独分开。换句话说,每个示例占据完整的输入序列长度。
性能
为了测试,我们保留了来自GLUE的翻译数据集MRPC(相似性)和RTE(推理),以及来自SuperGLUE的COPA(推理/问答),作为三大类型任务的代表,这些数据在训练期间未被看到。
模型 |
MRPC (F1) |
RTE (F1) |
COPA (F1) |
Gervásio 7B PTBR |
0.7822 |
0.8321 |
0.2134 |
LLaMA-2 (英语) |
0.0369 |
0.0516 |
0.4867 |
LLaMA-2 Chat (英语) |
0.5432 |
0.3807 |
0.5493 |
为了进一步测试我们的解码器,除了上述测试数据外,我们还使用了最初用葡萄牙语文本开发的数据集:ASSIN2 RTE(蕴含)、ASSIN2 STS(相似性)、BLUEX(问题回答)、ENEM 2022(问题回答)和FaQuAD(抽取式问题回答)。
模型 |
ENEM 2022 (准确率) |
BLUEX (准确率) |
RTE (F1) |
STS (皮尔逊) |
Gervásio 7B PTBR |
0.1977 |
0.2640 |
0.7469 |
0.2136 |
LLaMA-2 (英语) |
0.2458 |
0.2903 |
0.0913 |
0.1034 |
LLaMA-2 Chat (英语) |
0.2231 |
0.2959 |
0.5546 |
0.1750 |
与其他相同维度的解码器(如Sabiá 1.5B)相比,Gervásio在PTBR任务上表现出更优或竞争性的性能,同时是当时唯一针对PTPT葡萄牙语变体的1.5B维度解码器,因此在发布时处于该领域的领先地位。如需更多评估数据,请参阅相关出版物。
使用方法
您可以直接使用因果语言建模的管道来使用此模型:
>>> from transformers import pipeline
>>> generator = pipeline(model='PORTULAN/gervasio-7b-portuguese-ptbr-decoder')
>>> generator("A música brasileira é", max_new_tokens=10)
致谢
这里报告的研究得到了以下支持:PORTULAN CLARIN——语言科学与技术研究基础设施,由Lisboa 2020、Alentejo 2020和FCT——葡萄牙科学技术基金会资助,资助号为PINFRA/22117/2016;研究项目GPT-PT——基于Transformer的葡萄牙语解码器,由FCT——葡萄牙科学技术基金会资助,资助号为CPCA-IAC/AV/478395/2022;创新项目ACCELERAT.AI——多语言智能联系中心,由IAPMEI, I.P.——竞争与创新局资助,资助号为C625734525-00462629,来自复苏与韧性计划,RE-C05-i01.01号征集——再工业化的动员议程/联盟。