数据集:
- eduagarcia/LegalPT_dedup
- eduagarcia/CrawlPT_dedup
语言:
- 葡萄牙语
任务标签: 填充掩码
标签:
- 法律
模型索引:
- 名称: RoBERTaLexPT-base
结果:
- 任务:
类型: 标记分类
数据集:
类型: lener_br
名称: lener_br
分割: 测试
指标:
- 类型: seqeval
值: 0.9073
名称: F1
参数:
方案: IOB2
- 任务:
类型: 标记分类
数据集:
类型: eduagarcia/PortuLex_benchmark
名称: UlyNER-PL 粗粒度
配置: UlyssesNER-Br-PL-coarse
分割: 测试
指标:
- 类型: seqeval
值: 0.8856
名称: F1
参数:
方案: IOB2
- 任务:
类型: 标记分类
数据集:
类型: eduagarcia/PortuLex_benchmark
名称: UlyNER-PL 细粒度
配置: UlyssesNER-Br-PL-fine
分割: 测试
指标:
- 类型: seqeval
值: 0.8603
名称: F1
参数:
方案: IOB2
- 任务:
类型: 标记分类
数据集:
类型: eduagarcia/PortuLex_benchmark
名称: FGV-STF
配置: fgv-coarse
分割: 测试
指标:
- 类型: seqeval
值: 0.8040
名称: F1
参数:
方案: IOB2
- 任务:
类型: 标记分类
数据集:
类型: eduagarcia/PortuLex_benchmark
名称: RRIP
配置: rrip
分割: 测试
指标:
- 类型: seqeval
值: 0.8322
名称: F1
参数:
方案: IOB2
- 任务:
类型: 标记分类
数据集:
类型: eduagarcia/PortuLex_benchmark
名称: PortuLex
分割: 测试
指标:
- 类型: seqeval
值: 0.8541
名称: 平均F1
参数:
方案: IOB2
许可证: cc-by-4.0
指标:
- seqeval
RoBERTaLexPT-base
RoBERTaLexPT-base 是一个葡萄牙语掩码语言模型,从头开始预训练,使用了LegalPT和CrawlPT语料库,采用与Liu等人(2019)提出的RoBERTa-base相同的架构。
- 语言(NLP): 葡萄牙语(pt-BR和pt-PT)
- 许可证: 知识共享署名4.0国际公共许可证
- 代码库: https://github.com/eduagarcia/roberta-legal-portuguese
- 论文: https://aclanthology.org/2024.propor-1.38/
评估
该模型在"PortuLex"基准测试上进行了评估,这是一个四任务基准测试,旨在评估葡萄牙语法律领域语言模型的质量和性能。
在PortuLex基准测试测试集上的宏F1分数(%):
总之,尽管RoBERTaLexPT是基础规模,但它始终达到顶级法律NLP效果。
通过足够的预训练数据,它可以超越更大的模型。结果突出了领域多样化训练数据比模型规模更重要。
训练详情
RoBERTaLexPT-base预训练于:
训练过程
我们的预训练过程使用Fairseq库v0.10.2在DGX-A100集群上执行,共使用2个Nvidia A100 80 GB GPU。
单一配置的完整训练大约需要三天时间。
这一计算成本与BERTimbau-base的工作相似,模型在训练期间接触了大约650亿个标记。
预处理
我们使用MinHash算法和text-dedup库中的局部敏感哈希实现,对LegalPT和CrawlPT语料库的所有子集进行去重,以找到重复文档的聚类。
为了确保领域模型不受通用词汇表的限制,我们使用了HuggingFace Tokenizers的BPE算法为每个预训练语料库训练词汇表。
训练超参数
预训练过程包括训练模型62,500步,批大小为2048,学习率为4e-4,每个序列最多包含512个标记。
权重初始化是随机的。
我们采用了掩码语言建模目标,其中15%的输入标记被随机掩码。
优化使用AdamW优化器,采用线性预热和线性衰减学习率计划。
对于其他参数,我们采用了标准的RoBERTa-base超参数:
超参数 |
RoBERTa-base |
层数 |
12 |
隐藏层大小 |
768 |
FFN内部隐藏层大小 |
3072 |
注意力头数 |
12 |
注意力头大小 |
64 |
Dropout |
0.1 |
注意力Dropout |
0.1 |
预热步数 |
6k |
峰值学习率 |
4e-4 |
批大小 |
2048 |
权重衰减 |
0.01 |
最大训练步数 |
62.5k |
学习率衰减 |
线性 |
AdamW $$\epsilon$$ |
1e-6 |
AdamW $$\beta_1$$ |
0.9 |
AdamW $$\beta_2$$ |
0.98 |
梯度裁剪 |
0.0 |
引用
@inproceedings{garcia-etal-2024-robertalexpt,
title = "{R}o{BERT}a{L}ex{PT}: A Legal {R}o{BERT}a Model pretrained with deduplication for {P}ortuguese",
author = "Garcia, Eduardo A. S. and
Silva, Nadia F. F. and
Siqueira, Felipe and
Albuquerque, Hidelberg O. and
Gomes, Juliana R. S. and
Souza, Ellen and
Lima, Eliomar A.",
editor = "Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{\'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{\c{c}}alo and
Amaro, Raquel",
booktitle = "Proceedings of the 16th International Conference on Computational Processing of Portuguese",
month = mar,
year = "2024",
address = "Santiago de Compostela, Galicia/Spain",
publisher = "Association for Computational Lingustics",
url = "https://aclanthology.org/2024.propor-1.38",
pages = "374--383",
}
致谢
这项工作得到了戈亚斯联邦大学信息学院人工智能卓越中心(Centro de Excelência em Inteligência Artificial – CEIA)的支持。