语言: 中文
任务标签: 填充掩码
许可证: CC-BY-SA-4.0
缩略图: https://i.ibb.co/p3kQ7Rw/Screenshot-2020-10-06-at-12-16-36-PM.png
标签:
- 法律
小部件示例:
- 文本: "申请人称其丈夫在阿达纳安全局拘留期间遭受了等同于[MASK]的对待。"
LEGAL-BERT:法学院走出的法律专家
LEGAL-BERT是一系列面向法律领域的BERT模型,旨在助力法律自然语言处理研究、计算法学及法律科技应用。为预训练不同版本的LEGAL-BERT,我们从公开资源爬取了12GB涵盖立法、法庭案例、合同等多领域的英文法律文本。针对特定子领域(如合同、欧盟法律、欧洲人权法院案例)优化的子模型及通用版LEGAL-BERT,在专业任务上表现优于原始BERT模型。
本模型为基于欧洲人权法院案例预训练的子领域专用版本。
I. Chalkidis, M. Fergadiotis, P. Malakasiotis, N. Aletras与I. Androutsopoulos合作发表。《LEGAL-BERT:法学院走出的法律专家》,收录于2020年线上举行的自然语言处理实证方法会议(EMNLP 2020)短论文集。(https://aclanthology.org/2020.findings-emnlp.261)
预训练语料
LEGAL-BERT的预训练语料包括:
-
来自欧盟法律数据库EURLEX(http://eur-lex.europa.eu)的116,062份欧盟立法文件
-
取自英国立法门户(http://www.legislation.gov.uk)的61,826份英国立法文件
-
源自欧洲法院(ECJ)的19,867个案例,同样来自EURLEX
-
来自欧洲人权法院(ECHR)数据库HUDOC(http://hudoc.echr.coe.int/eng)的12,554个案例
-
美国判例法访问计划(https://case.law)提供的164,141个全美各地法院案例
-
美国证券交易委员会EDGAR数据库(https://www.sec.gov/edgar.shtml)中的76,366份美国合同
预训练细节
- 使用Google BERT官方代码库(https://github.com/google-research/bert)进行训练
- 发布与英文BERT-BASE结构相同的模型(12层/768隐藏层/12头注意力/1.1亿参数)
- 采用相同训练配置:100万步训练,256个长度512的序列批次,初始学习率1e-4
- 训练设备:免费使用的Google Cloud TPU v3-8(来自TensorFlow研究云计划)及GCP研究信用额度
模型列表
模型名称 |
模型路径 |
训练语料 |
CONTRACTS-BERT-BASE |
nlpaueb/bert-base-uncased-contracts |
美国合同 |
EURLEX-BERT-BASE |
nlpaueb/bert-base-uncased-eurlex |
欧盟立法 |
ECHR-BERT-BASE |
nlpaueb/bert-base-uncased-echr |
欧洲人权法院案例 |
LEGAL-BERT-BASE * |
nlpaueb/legal-bert-base-uncased |
全领域 |
LEGAL-BERT-SMALL |
nlpaueb/legal-bert-small-uncased |
全领域 |
*注:LEGAL-BERT-BASE即论文中LEGAL-BERT-SC模型,使用法律语料库训练的全新词表
加载预训练模型
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("nlpaueb/bert-base-uncased-echr")
model = AutoModel.from_pretrained("nlpaueb/bert-base-uncased-echr")
下游任务评估
参见论文《LEGAL-BERT:法学院走出的法律专家》中的实验设计(Chalkidis等,2020)
作者与文献引用
@inproceedings{chalkidis-etal-2020-legal,
title = "{LEGAL}-{BERT}: The Muppets straight out of Law School",
author = "Chalkidis, Ilias and
Fergadiotis, Manos and
Malakasiotis, Prodromos and
Aletras, Nikolaos and
Androutsopoulos, Ion",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
doi = "10.18653/v1/2020.findings-emnlp.261",
pages = "2898--2904"
}
关于我们
雅典经济与商业大学自然语言处理组专注于开发自然语言处理算法与系统,当前研究方向包括:
- 面向数据库、文档集和网络的问答系统
- 基于数据库的文本生成
- 文本分类与信息抽取
- 希腊语NLP工具开发
- 深度学习在NLP中的应用
项目负责人:Ilias Chalkidis
| GitHub: @ilias.chalkidis | Twitter: @KiddoThe2B |