语言: 中文
任务标签: 填充掩码
许可证: CC-BY-SA-4.0
缩略图: https://i.ibb.co/p3kQ7Rw/Screenshot-2020-10-06-at-12-16-36-PM.png
标签:
- 法律
小部件示例:
- 文本: "申请人称其丈夫在警方拘留期间遭受了相当于[MASK]的对待。"
LEGAL-BERT:法学院走出的法律专家
LEGAL-BERT是一系列面向法律领域的BERT模型,旨在支持法律自然语言处理研究、计算法学及法律科技应用。为预训练不同版本的LEGAL-BERT,我们从公开资源爬取了12GB涵盖立法、法庭案例、合同等多领域的英文法律文本。针对特定子领域优化的变体(如CONTRACTS-、EURLEX-、ECHR-)或通用LEGAL-BERT在专业任务中表现优于原始BERT。我们还提供了一个轻量级模型(体积为BERT-BASE的33%),该模型完全基于法律数据从头训练,性能表现具有竞争力。
I. Chalkidis, M. Fergadiotis, P. Malakasiotis, N. Aletras 和 I. Androutsopoulos 合作发表。"LEGAL-BERT:法学院走出的法律专家"。收录于2020年自然语言处理实证方法会议(EMNLP 2020)(短文),线上举行,2020年。(https://aclanthology.org/2020.findings-emnlp.261)
预训练语料
LEGAL-BERT的预训练语料包括:
-
来自欧盟法律数据库EURLEX(http://eur-lex.europa.eu)的116,062份欧盟立法文件
-
来自英国立法门户(http://www.legislation.gov.uk)的61,826份英国立法文件
-
来自欧洲法院(ECJ)的19,867个案例,同样源自EURLEX
-
来自欧洲人权法院(ECHR)数据库HUDOC(http://hudoc.echr.coe.int/eng)的12,554个案例
-
来自美国案例法访问项目(https://case.law)的164,141个美国各级法院案例
-
源自美国证券交易委员会(SECOM)EDGAR数据库(https://www.sec.gov/edgar.shtml)的76,366份美国合同
预训练细节
- 使用Google BERT官方代码库(https://github.com/google-research/bert)进行训练
- 发布与英文BERT-BASE结构相同的模型(12层,768隐藏单元,12头注意力,1.1亿参数)
- 采用相同训练配置:100万步训练,批次大小256,序列长度512,初始学习率1e-4
- 训练设备为TensorFlow研究云(TFRC)提供的免费Google Cloud TPU v3-8,并使用了GCP研究积分
- 包含一个完全基于法律数据训练的轻量级模型,性能媲美大型模型,效率更高(约快4倍),环境足迹更小
模型列表
模型名称 |
模型路径 |
训练语料 |
CONTRACTS-BERT-BASE |
nlpaueb/bert-base-uncased-contracts |
美国合同 |
EURLEX-BERT-BASE |
nlpaueb/bert-base-uncased-eurlex |
欧盟立法 |
ECHR-BERT-BASE |
nlpaueb/bert-base-uncased-echr |
欧洲人权法院案例 |
LEGAL-BERT-BASE * |
nlpaueb/legal-bert-base-uncased |
全部语料 |
LEGAL-BERT-SMALL |
nlpaueb/legal-bert-small-uncased |
全部语料 |
- LEGAL-BERT-BASE即Chalkidis等人(2020)中的LEGAL-BERT-SC,基于全新构建的法律领域词汇表从头训练
** 应研究者需求,基于原始BERT-BASE微调的LEGAL-BERT-FP模型已发布于Archive.org(https://archive.org/details/legal_bert_fp)
加载预训练模型
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("nlpaueb/legal-bert-base-uncased")
model = AutoModel.from_pretrained("nlpaueb/legal-bert-base-uncased")
语言模型应用示例
语料 |
模型 |
掩码词 |
预测结果 |
|
BERT-BASE-UNCASED |
|
|
(合同) |
本[MASK]协议由通用汽车与约翰·默里签订 |
雇佣 |
('新', '0.09'), ('当前', '0.04'), ('提议', '0.03'), ('营销', '0.03'), ('联合', '0.02') |
(欧洲人权法院) |
申请人称其丈夫在阿达纳安全局拘留期间遭受了相当于[MASK]的对待 |
酷刑 |
('酷刑', '0.32'), ('强奸', '0.22'), ('虐待', '0.14'), ('死亡', '0.04'), ('暴力', '0.03') |
(欧盟法律) |
建立用于识别和登记[MASK]动物的系统及牛肉产品标签规定 |
牛类 |
('农场', '0.25'), ('牲畜', '0.08'), ('役用', '0.06'), ('家养', '0.05'), ('野生', '0.05') |
(后续表格内容遵循相同模式翻译,此处省略以保持简洁)
下游任务评估
参考论文《LEGAL-BERT:法学院走出的法律专家》中的实验设计,Chalkidis等人,2020 (https://aclanthology.org/2020.findings-emnlp.261)
作者与文献引用
@inproceedings{chalkidis-etal-2020-legal,
title = "{LEGAL}-{BERT}: 法学院走出的法律专家",
author = "Chalkidis, Ilias 等",
booktitle = "2020年自然语言处理实证方法会议论文集",
month = "11月",
year = "2020",
address = "线上",
publisher = "计算语言学协会",
doi = "10.18653/v1/2020.findings-emnlp.261",
pages = "2898--2904"
}
关于我们
雅典经济与商业大学自然语言处理组专注于开发自然语言处理算法与系统,当前研究方向包括:
- 面向数据库、文档集和网络的问答系统(特别是生物医学领域)
- 从数据库生成自然语言文本
- 文本分类(包括垃圾/有害内容过滤)
- 信息抽取与观点挖掘(含法律文本分析与情感分析)
- 希腊语自然语言处理工具开发
- 自然语言处理中的机器学习(特别是深度学习)
研究组隶属于雅典经济与商业大学信息处理实验室。
Ilias Chalkidis 代表 AUEB自然语言处理组
| GitHub: @ilias.chalkidis | Twitter: @KiddoThe2B |