language: zh
pipeline_tag: fill-mask
license: cc-by-sa-4.0
thumbnail: https://i.ibb.co/p3kQ7Rw/Screenshot-2020-10-06-at-12-16-36-PM.png
tags:
- legal
widget:
- text: "申请人陈述其丈夫在警方拘留期间遭受了等同于[MASK]的对待。"
LEGAL-BERT:法学院走出的法律专家
LEGAL-BERT是为法律领域量身定制的BERT模型家族,旨在助力法律自然语言处理研究、计算法学及法律科技应用。为训练不同版本的LEGAL-BERT,我们从公开资源爬取了12GB涵盖立法、判例、合同等多领域的英文法律文本。特定领域变体(如合同版、欧盟法律版、欧洲人权版)及通用版LEGAL-BERT在专业任务中的表现均优于原始BERT模型。
本轻量版模型(体积仅为BERT-BASE的33%)基于法律数据从头训练,在保持性能可比性的同时显著提升效率(速度提升约4倍),并减少环境资源消耗。
I. Chalkidis, M. Fergadiotis, P. Malakasiotis, N. Aletras 和 I. Androutsopoulos 合著《LEGAL-BERT:法学院走出的法律专家》,收录于2020年线上举行的自然语言处理实证方法会议(EMNLP 2020)短论文集。(https://aclanthology.org/2020.findings-emnlp.261)
预训练语料
LEGAL-BERT的预训练语料包括:
-
来自欧盟法律数据库EURLEX(http://eur-lex.europa.eu)的116,062份欧盟立法文件
-
取自英国立法门户(http://www.legislation.gov.uk)的61,826份英国立法文件
-
源自欧洲法院(ECJ)的19,867个判例,同样来自EURLEX
-
欧洲人权法院(ECHR)数据库HUDOC(http://hudoc.echr.coe.int/eng)提供的12,554个判例
-
美国判例法访问计划(https://case.law)收录的164,141个全美各地法院判例
-
美国证券交易委员会EDGAR系统(https://www.sec.gov/edgar.shtml)中的76,366份美国合同
训练细节
- 使用Google BERT官方代码库(https://github.com/google-research/bert)进行训练
- 发布与英文BERT-BASE结构相当的模型(12层/768隐藏层/12头注意力/1.1亿参数)
- 采用相同训练配置:100万步训练,256个长度512的序列批次,初始学习率1e-4
- 训练设备:免费使用的Google Cloud TPU v3-8(由TensorFlow研究云计划提供)及GCP研究积分支持
模型列表
模型名称 |
模型路径 |
训练语料 |
合同版BERT-BASE |
nlpaueb/bert-base-uncased-contracts |
美国合同 |
欧盟法律版BERT-BASE |
nlpaueb/bert-base-uncased-eurlex |
欧盟立法 |
欧洲人权版BERT-BASE |
nlpaueb/bert-base-uncased-echr |
欧洲人权法院判例 |
通用版LEGAL-BERT-BASE * |
nlpaueb/legal-bert-base-uncased |
全领域 |
轻量版LEGAL-BERT-SMALL |
nlpaueb/legal-bert-small-uncased |
全领域 |
*注:通用版即论文中提及的LEGAL-BERT-SC模型,基于全新构建的法律术语词典训练
** 基于原始BERT微调的LEGAL-BERT-FP模型已发布于Archive.org(https://archive.org/details/legal_bert_fp)
加载预训练模型
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("nlpaueb/legal-bert-small-uncased")
model = AutoModel.from_pretrained("nlpaueb/legal-bert-small-uncased")
语言模型应用示例
语料 |
模型 |
掩码词 |
预测结果 |
|
原始BERT-BASE |
|
|
(合同) |
本[MASK]协议由通用汽车与约翰·默里签订。 |
雇佣 |
('新', '0.09'), ('现有', '0.04'), ('提议', '0.03'), ('营销', '0.03'), ('联合', '0.02') |
(欧洲人权) |
申请人陈述其丈夫在阿达纳安全局拘留期间遭受了等同于[MASK]的对待。 |
酷刑 |
('酷刑', '0.32'), ('强奸', '0.22'), ('虐待', '0.14'), ('死亡', '0.04'), ('暴力', '0.03') |
(欧盟法律) |
建立用于[MASK]动物识别登记及牛肉标签管理的系统。 |
牛类 |
('农场', '0.25'), ('牲畜', '0.08'), ('役用', '0.06'), ('家养', '0.05'), ('野生', '0.05') |
(后续表格内容遵循相同模式翻译,此处省略以保持简洁)
下游任务评估
详见论文《LEGAL-BERT:法学院走出的法律专家》(Chalkidis等,2020)中的实验设计
作者与文献
@inproceedings{chalkidis-etal-2020-legal,
title = "{LEGAL}-{BERT}: 法学院走出的法律专家",
author = "Chalkidis, Ilias 等",
booktitle = "自然语言处理实证方法会议论文集(EMNLP 2020)",
month = "11月",
year = "2020",
address = "线上",
publisher = "计算语言学协会"
}
关于我们
雅典经济商业大学自然语言处理组专注于:
- 面向数据库/文档/网络的智能问答系统(特别是生物医学领域)
- 基于数据的自然语言生成
- 文本分类与信息抽取(包括法律文本分析与情感挖掘)
- 希腊语NLP工具开发
- 深度学习在法律NLP中的应用
Ilias Chalkidis 代表AUEB自然语言处理组
| GitHub: @ilias.chalkidis | Twitter: @KiddoThe2B |