语言: 英语
流水线标签: 填充掩码
许可证: CC-BY-SA-4.0
标签:
- 法律
模型索引:
- 名称: lexlms/legal-roberta-large
结果: []
小部件示例:
- 文本: "申请人提交称,其丈夫在被警方拘留期间遭受了等同于的对待。"
- 文本: "本协议由通用汽车公司与约翰·默里签订。"
- 文本: "建立用于识别和登记动物的系统,并关于牛肉及牛肉产品的标签规定。"
- 文本: "由于法院在判决前授予了,法院实质上取代了上诉法院的角色并审查被告的上诉。"
数据集:
- lexlms/lex_files
LexLM大模型
本模型基于RoBERTa大模型(https://huggingface.co/roberta-large)在LeXFiles语料库(https://huggingface.co/datasets/lexlms/lex_files)上进行了持续预训练。
模型描述
LexLM(基础版/大模型版)是我们最新发布的RoBERTa模型系列。我们遵循语言模型开发的一系列最佳实践:
- 模型权重初始化采用Liu等人(2019)原始RoBERTa检查点(基础版或大模型版)。
- 我们训练了一个包含5万BPE的新分词器,但通过Pfeiffer等人(2021)的方法复用了所有词汇重叠token的原始嵌入。
- 在多样化LeXFiles语料库上,我们以512样本批次和20%/30%掩码率(分别对应基础版/大模型版)继续预训练100万步(Wettig等人,2022)。
- 采用Conneau等人(2019)的指数平滑句子采样器,以平衡各子语料库的token比例差异,保持各语料库的学习能力(避免过拟合)。
- 与近期主流大语言模型一致,我们开发的是混合大小写模型。
使用场景与限制
需补充更多信息
训练与评估数据
模型训练基于LeXFiles语料库(https://huggingface.co/datasets/lexlms/lexfiles)。评估结果请参阅我们的论文《LeXFiles与LegalLAMA:推动英语跨国法律语言模型发展》(Chalkidis*等人,2023)。
训练流程
训练超参数
训练采用以下超参数配置:
- 学习率:0.0001
- 训练批次大小:8
- 评估批次大小:8
- 随机种子:42
- 分布式类型:TPU
- 设备数量:8
- 梯度累积步数:4
- 总训练批次大小:256
- 总评估批次大小:64
- 优化器:带beta=(0.9,0.999)和epsilon=1e-08的Adam
- 学习率调度器:余弦退火
- 学习率预热比例:0.05
- 训练步数:1000000
训练结果
训练损失 |
周期 |
步数 |
验证损失 |
1.1322 |
0.05 |
50000 |
0.8690 |
1.0137 |
0.1 |
100000 |
0.8053 |
1.0225 |
0.15 |
150000 |
0.7951 |
0.9912 |
0.2 |
200000 |
0.7786 |
0.976 |
0.25 |
250000 |
0.7648 |
0.9594 |
0.3 |
300000 |
0.7550 |
0.9525 |
0.35 |
350000 |
0.7482 |
0.9152 |
0.4 |
400000 |
0.7343 |
0.8944 |
0.45 |
450000 |
0.7245 |
0.893 |
0.5 |
500000 |
0.7216 |
0.8997 |
1.02 |
550000 |
0.6843 |
0.8517 |
1.07 |
600000 |
0.6687 |
0.8544 |
1.12 |
650000 |
0.6624 |
0.8535 |
1.17 |
700000 |
0.6565 |
0.8064 |
1.22 |
750000 |
0.6523 |
0.7953 |
1.27 |
800000 |
0.6462 |
0.8051 |
1.32 |
850000 |
0.6386 |
0.8148 |
1.37 |
900000 |
0.6383 |
0.8004 |
1.42 |
950000 |
0.6408 |
0.8031 |
1.47 |
1000000 |
0.6314 |
框架版本
- Transformers 4.20.0
- PyTorch 1.12.0+cu102
- Datasets 2.7.0
- Tokenizers 0.12.0
引用文献
伊利阿斯·查尔基迪斯,尼古拉·加诺*,卡塔琳娜·E·C·戈安塔,丹尼尔·马丁·卡茨,安德斯·索加德。
《LeXFiles与LegalLAMA:推动英语跨国法律语言模型发展》。
2023年。发表于第61届计算语言学协会年会论文集。加拿大多伦多。*
@inproceedings{chalkidis-garneau-etal-2023-lexlms,
title = {{LeXFiles与LegalLAMA:推动英语跨国法律语言模型发展}},
author = "查尔基迪斯*, 伊利阿斯 and
加诺*, 尼古拉 and
戈安塔, 卡塔琳娜 and
卡茨, 丹尼尔·马丁 and
索加德, 安德斯",
booktitle = "第61届计算语言学协会年会论文集",
month = 7月,
year = "2023",
address = "加拿大多伦多",
publisher = "计算语言学协会",
url = "https://arxiv.org/abs/2305.07507",
}