legal - roberta - large开源法律领域语言模型

首页

Legal Roberta Large

由 lexlms 开发

基于RoBERTa大模型在LeXFiles法律语料库上持续预训练的法律领域语言模型

大型语言模型

Transformers

英语#法律文本填充 #多国法律语言 #RoBERTa优化

下载量 367

发布时间 : 11/11/2022

模型简介

LexLM是专门针对法律领域优化的RoBERTa模型系列，通过持续预训练提升法律文本理解能力，支持法律文档分析和处理任务

模型特点

法律领域优化

在多样化LeXFiles法律语料库上持续预训练，专门优化法律文本处理能力

混合大小写支持

与主流大语言模型一致，支持混合大小写文本处理

平衡训练策略

采用指数平滑句子采样器平衡各子语料库的token比例，防止过拟合

高效分词器

训练包含5万BPE的新分词器，复用原始词汇重叠token的嵌入

模型能力

法律文本理解

法律文档分析

法律术语识别

法律文本填充掩码预测

使用案例

法律文档处理

法律协议分析

分析法律协议中的关键条款和术语

法律案件分析

理解法律案件描述中的关键事实和法律问题

法律文本生成

法律文档补全

自动补全法律文档中的缺失内容

🚀 大型法律语言模型（LexLM large）

LexLM large 是基于 RoBERTa 架构的预训练语言模型，在法律领域的文本处理上表现出色。它通过在大规模法律语料上继续预训练，能够更好地理解和处理法律相关的文本，为法律信息检索、合同分析等任务提供有力支持。

🚀 快速开始

此模型是在 RoBERTa large（https://huggingface.co/roberta-large）的基础上，在 LeXFiles 语料库（https://huggingface.co/datasets/lexlms/lex_files）上继续预训练得到的。

✨ 主要特性

基于 RoBERTa 架构：LexLM（基础版/大型版）是新发布的 RoBERTa 模型，从原始的 RoBERTa 检查点（基础版或大型版）进行热启动（初始化）。
新的分词器：训练了一个包含 50k 字节对编码（BPE）的新分词器，但重用了所有词法重叠标记的原始嵌入。
持续预训练：在多样化的 LeXFiles 语料库上继续预训练模型，基础版和大型版分别进行额外的 100 万步训练，批次大小为 512 个样本，掩码率为 20%/30%。
句子采样：使用带有子语料库采样率指数平滑的句子采样器，以保留每个语料库的容量并避免过拟合。
大小写混合模型：与最近开发的大型预训练语言模型类似，采用大小写混合模型。

📚 详细文档

预期用途和限制

更多信息待补充。

训练和评估数据

该模型在 LeXFiles 语料库（https://huggingface.co/datasets/lexlms/lexfiles）上进行训练。有关评估结果，请参考论文 "LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development"（Chalkidis* 等人，2023）。

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：0.0001
训练批次大小：8
评估批次大小：8
随机种子：42
分布式类型：TPU
设备数量：8
梯度累积步数：4
总训练批次大小：256
总评估批次大小：64
优化器：Adam，β=(0.9, 0.999)，ε=1e - 08
学习率调度器类型：余弦
学习率调度器预热比例：0.05
训练步数：1000000

训练结果

训练损失	轮数	步数	验证损失
1.1322	0.05	50000	0.8690
1.0137	0.1	100000	0.8053
1.0225	0.15	150000	0.7951
0.9912	0.2	200000	0.7786
0.976	0.25	250000	0.7648
0.9594	0.3	300000	0.7550
0.9525	0.35	350000	0.7482
0.9152	0.4	400000	0.7343
0.8944	0.45	450000	0.7245
0.893	0.5	500000	0.7216
0.8997	1.02	550000	0.6843
0.8517	1.07	600000	0.6687
0.8544	1.12	650000	0.6624
0.8535	1.17	700000	0.6565
0.8064	1.22	750000	0.6523
0.7953	1.27	800000	0.6462
0.8051	1.32	850000	0.6386
0.8148	1.37	900000	0.6383
0.8004	1.42	950000	0.6408
0.8031	1.47	1000000	0.6314

框架版本

Transformers 4.20.0
Pytorch 1.12.0+cu102
Datasets 2.7.0
Tokenizers 0.12.0

引用

Ilias Chalkidis*, Nicolas Garneau*, Catalina E.C. Goanta, Daniel Martin Katz, and Anders Søgaard. LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development. 2022. In the Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada.

@inproceedings{chalkidis-garneau-etal-2023-lexlms,
    title = {{LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development}},
    author = "Chalkidis*, Ilias and 
              Garneau*, Nicolas and
              Goanta, Catalina and 
              Katz, Daniel Martin and 
              Søgaard, Anders",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics",
    month = july,
    year = "2023",
    address = "Toronto, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/2305.07507",
}