RoBERTaLexPT-base 开源法律领域葡萄牙语模型

首页

Robertalexpt Base

由 eduagarcia 开发

RoBERTaLexPT-base 是一个葡萄牙语掩码语言模型，专门针对法律领域优化，通过LegalPT和CrawlPT语料库预训练。

大型语言模型

Transformers

其他#葡萄牙语法律文本 #高精度NER #领域专用预训练

下载量 366

发布时间 : 1/9/2024

模型简介

该模型是基于RoBERTa架构的葡萄牙语语言模型，专注于法律文本处理，支持葡萄牙语(包括巴西和欧洲变体)。

模型特点

法律领域优化

专门针对葡萄牙语法律文本进行预训练和优化

多样化训练数据

结合法律领域(LegalPT)和通用领域(CrawlPT)数据进行训练

高性能

在葡萄牙语法律NLP任务中表现优于同类模型

数据去重

训练前使用MinHash算法对数据进行去重处理

模型能力

葡萄牙语文本理解

法律文本分析

命名实体识别

标记分类

使用案例

法律文本处理

法律文件分析

分析法律文件中的关键信息

在PortuLex基准测试中达到85.41%的平均F1分数

法律实体识别

识别法律文本中的特定实体

在LeNER数据集上达到90.73%的F1分数

🚀 RoBERTaLexPT-base

RoBERTaLexPT-base 是一个葡萄牙语掩码语言模型，它基于 LegalPT 和 CrawlPT 语料库从头开始预训练，采用了与 RoBERTa-base 相同的架构，该架构由 Liu 等人在 2019 年提出。此模型可用于解决葡萄牙语法律领域的语言处理问题，在相关任务中展现出了出色的性能。

✨ 主要特性

语言支持：支持葡萄牙语（包括巴西葡萄牙语和葡萄牙本土葡萄牙语）。
许可证：采用知识共享署名 4.0 国际公共许可证。
代码仓库：https://github.com/eduagarcia/roberta-legal-portuguese
相关论文：https://aclanthology.org/2024.propor-1.38/

📚 详细文档

评估

该模型在 "PortuLex" 基准测试上进行了评估，这是一个四任务基准测试，旨在评估葡萄牙语法律领域语言模型的质量和性能。

在 PortuLex 基准测试的测试集上，多个模型的宏 F1 分数（%）如下：

模型	LeNER	UlyNER-PL	FGV-STF	RRIP	平均（%）
		粗粒度/细粒度	粗粒度
BERTimbau-base	88.34	86.39/83.83	79.34	82.34	83.78
BERTimbau-large	88.64	87.77/84.74	79.71	83.79	84.60
Albertina-PT-BR-base	89.26	86.35/84.63	79.30	81.16	83.80
Albertina-PT-BR-xlarge	90.09	88.36/86.62	79.94	82.79	85.08
BERTikal-base	83.68	79.21/75.70	77.73	81.11	79.99
JurisBERT-base	81.74	81.67/77.97	76.04	80.85	79.61
BERTimbauLAW-base	84.90	87.11/84.42	79.78	82.35	83.20
Legal-XLM-R-base	87.48	83.49/83.16	79.79	82.35	83.24
Legal-XLM-R-large	88.39	84.65/84.55	79.36	81.66	83.50
Legal-RoBERTa-PT-large	87.96	88.32/84.83	79.57	81.98	84.02
我们的模型
RoBERTaTimbau-base（BERTimbau 的复现模型）	89.68	87.53/85.74	78.82	82.03	84.29
RoBERTaLegalPT-base（在 LegalPT 上训练）	90.59	85.45/84.40	79.92	82.84	84.57
RoBERTaCrawlPT-base （在 CrawlPT 上训练）	89.24	88.22/86.58	79.88	82.80	84.83
RoBERTaLexPT-base（本模型）（在 CrawlPT + LegalPT 上训练）	90.73	88.56/86.03	80.40	83.22	85.41

综上所述，尽管 RoBERTaLexPT 是基础规模的模型，但它在法律自然语言处理任务中始终能取得顶尖的效果。在有足够的预训练数据的情况下，它可以超越更大规模的模型。这些结果凸显了领域多样化的训练数据比单纯的模型规模更为重要。

训练细节

RoBERTaLexPT-base 在以下语料库上进行了预训练：

LegalPT 是一个葡萄牙语法律语料库，通过聚合多种来源的数据，规模可达 125GiB。
CrawlPT 由三个葡萄牙语通用语料库组成：brWaC、CC100 PT 子集、OSCAR-2301 PT 子集。

训练过程

我们使用 Fairseq 库 v0.10.2 在 DGX - A100 集群上执行预训练过程，总共使用了 2 块英伟达 A100 80GB GPU。单个配置的完整训练大约需要三天时间。

这种计算成本与 BERTimbau-base 的工作相当，在训练过程中，模型接触了大约 650 亿个标记。

预处理

我们使用 text-dedup 库中的 MinHash 算法和局部敏感哈希实现对 LegalPT 和 CrawlPT 语料库的所有子集进行去重，以找出重复文档的聚类。

为了确保领域模型不受通用词汇表的限制，我们使用 HuggingFace Tokenizers 的 BPE 算法为每个预训练语料库训练了一个词汇表。

训练超参数

预训练过程包括对模型进行 62,500 步的训练，批量大小为 2048，学习率为 4e - 4，每个序列最多包含 512 个标记。权重初始化是随机的。我们采用掩码语言建模目标，随机屏蔽 15% 的输入标记。优化使用 AdamW 优化器，采用线性预热和线性衰减的学习率调度。

对于其他参数，我们采用了标准的 RoBERTa-base 超参数：

超参数	RoBERTa-base
层数	12
隐藏层大小	768
前馈网络内部隐藏层大小	3072
注意力头数量	12
注意力头大小	64
丢弃率	0.1
注意力丢弃率	0.1
预热步数	6k
峰值学习率	4e-4
批量大小	2048
权重衰减	0.01
最大训练步数	62.5k
学习率衰减	线性
AdamW $$\epsilon$$	1e-6
AdamW $$\beta_1$$	0.9
AdamW $$\beta_2$$	0.98
梯度裁剪	0.0

📄 许可证

本项目采用知识共享署名 4.0 国际公共许可证。

📖 引用

@inproceedings{garcia-etal-2024-robertalexpt,
    title = "{R}o{BERT}a{L}ex{PT}: A Legal {R}o{BERT}a Model pretrained with deduplication for {P}ortuguese",
    author = "Garcia, Eduardo A. S.  and
      Silva, Nadia F. F.  and
      Siqueira, Felipe  and
      Albuquerque, Hidelberg O.  and
      Gomes, Juliana R. S.  and
      Souza, Ellen  and
      Lima, Eliomar A.",
    editor = "Gamallo, Pablo  and
      Claro, Daniela  and
      Teixeira, Ant{\'o}nio  and
      Real, Livy  and
      Garcia, Marcos  and
      Oliveira, Hugo Gon{\c{c}}alo  and
      Amaro, Raquel",
    booktitle = "Proceedings of the 16th International Conference on Computational Processing of Portuguese",
    month = mar,
    year = "2024",
    address = "Santiago de Compostela, Galicia/Spain",
    publisher = "Association for Computational Lingustics",
    url = "https://aclanthology.org/2024.propor-1.38",
    pages = "374--383",
}