许可证: MIT
语言:
- 葡萄牙语
标签:
- gervasio-pt*
- gervasio-ptpt
- gervasio-ptbr
- gervasio-7b-portuguese-ptpt-decoder
- gervasio-7b-portuguese-ptbr-decoder
- portulan
- albertina-pt*
- clm
- gpt
- 葡萄牙语
- 解码器
- 基础模型
数据集:
- PORTULAN/extraglue
- PORTULAN/extraglue-instruct
这是Gervásio 7B PTPT解码器的模型卡。
您可能对Albertina(编码器)和Gervásio(解码器)系列中的其他模型感兴趣。
Gervásio 7B PTPT
Gervásio PT* 是一个完全开放的葡萄牙语解码器。
它是一个基于Transformer神经架构的LLaMA家族解码器,基于LLaMA-2 7B模型开发。
通过额外的训练进一步改进,使用了包括为此目的准备的葡萄牙语新指令数据集(extraGLUE-Instruct)在内的语言资源。
它有不同版本,针对葡萄牙语(PT)的不同变体进行了训练,
特别是针对欧洲变体(葡萄牙使用的gervasio-7b-portuguese-ptpt-decoder)和美洲变体(巴西使用的gervasio-7b-portuguese-ptbr-decoder)。
所有版本的Gervásio都是在开放许可证下免费公开分发的,包括研究和商业用途,并且由于其规模,可以在消费级硬件上运行。
Gervásio 7B PTPT由葡萄牙里斯本大学科学学院信息学系的NLX-自然语言与语音小组开发。
记录中,它的全名是Gervásio Produz Textos em Português,对应的自然缩写是GPT PT,
在熟人中更常被称为Gervásio PT*,或更简单地称为Gervásio。
Gervásio 7B PTPT由葡萄牙里斯本大学的团队开发。
如需完整详细描述,请查看相应的出版物:
@misc{gervasio,
title={Advancing Generative AI for Portuguese with
Open Decoder Gervásio PT-*},
author={Rodrigo Santos, João Silva, Luís Gomes,
João Rodrigues, António Branco},
year={2024},
eprint={2402.18766},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
使用或引用此模型时,请使用上述规范引用。
模型描述
此模型卡适用于Gervásio 7B PTPT,拥有70亿参数,隐藏层大小为4,096单元,中间层大小为11,008单元,32个注意力头,32个隐藏层,以及使用字节对编码(BPE)算法实现的SentencePiece分词器,词汇量为32,000。
Gervásio 7B PTPT在MIT许可证下分发。
训练数据
Gervásio 7B PTPT通过标准监督微调进行训练,为了与主流英语基准保持一定一致性,我们使用了GLUE和SuperGLUE集合中的任务和相应数据集。
我们选择了那些机器翻译成欧洲葡萄牙语后能在目标语言中保留相关语言特性的数据集。
从GLUE中,我们选择了以下四个任务:
- MRPC(复述检测)。
- RTE(文本蕴含识别)。
- STS-B(语义文本相似性)。
- WNLI(共指和自然语言推理)。
从SuperGLUE中,我们加入了另外四个任务:
- BoolQ(是/否问答)。
- CB(三标签推理)。
- COPA(推理)。
- MultiRC(问答)。
这些数据集被机器翻译成欧洲葡萄牙语,并来自extraGLUE数据集。
此外,为每个任务手工制作了指令模板。这些模板将数据集中的各个字段排列成提示,收集在extraGLUE-instruct数据集中。
我们还采用了数据增强技术来增加数据集的规模和多样性。这包括以多种方式重新利用任务,例如从MultiRC生成答案,从BoolQ生成问题,以及其他相关修改。
训练细节
我们应用了带有因果语言建模训练目标的监督微调,在微调过程中采用了零输出技术。具体来说,虽然整个提示在微调过程中都受到关注,但只有响应标记受到反向传播的影响。
在超参数方面,模型以2 * 10^-5的学习率、0.1的权重衰减、两轮无热身的训练周期进行训练。为了确保每个步骤反向传播的标记数量相同,我们采用了512个标记的输入序列,批量大小为16,累积步数为16。
由于硬件限制导致输入序列长度较短(512),与基础模型(4096)相比,我们没有采用通常的做法将所有训练示例连接起来然后分成具有相同输入序列长度的批次,而是单独处理每个示例。换句话说,每个示例占据完整的输入序列长度。
性能
为了测试,我们保留了来自GLUE的MRPC(相似性)和RTE(推理)以及来自SuperGLUE的COPA(推理/问答)的翻译数据集,作为三大类型任务的代表,这些数据在训练期间未被看到。
模型 |
MRPC (F1) |
RTE (F1) |
COPA (F1) |
Gervásio 7B PTPT |
0.7273 |
0.8291 |
0.5459 |
LLaMA-2 (英语) |
0.0328 |
0.0482 |
0.3844 |
LLaMA-2 Chat (英语) |
0.5703 |
0.4697 |
0.4737 |
|
|
|
|
使用方法
您可以直接使用因果语言建模的管道来使用此模型:
>>> from transformers import pipeline
>>> generator = pipeline(model='PORTULAN/gervasio-7b-portuguese-ptpt-decoder')
>>> generator("A comida portuguesa é", max_new_tokens=10)
致谢
此处报告的研究部分得到了以下支持:PORTULAN CLARIN——语言科学与技术研究基础设施,由Lisboa 2020、Alentejo 2020和FCT——葡萄牙科学技术基金会资助,
资助号PINFRA/22117/2016;研究项目GPT-PT——基于Transformer的葡萄牙语解码器,由FCT——葡萄牙科学技术基金会资助,
资助号CPCA-IAC/AV/478395/2022;创新项目
ACCELERAT.AI——多语言智能联络中心,由IAPMEI, I.P.——竞争与创新局资助,
资助号C625734525-00462629,来自复苏与韧性计划,
招标RE-C05-i01.01——再工业化的动员议程/联盟。