语言: 中文
任务标签: 填充掩码
许可证: CC-BY-SA-4.0
缩略图: https://i.ibb.co/p3kQ7Rw/Screenshot-2020-10-06-at-12-16-36-PM.png
标签:
- 法律
小部件示例:
- 文本: "本[MASK]协议由通用汽车公司与约翰·默里签订。"
LEGAL-BERT:法学院走出的法律专家
LEGAL-BERT是一系列面向法律领域的BERT模型,旨在支持法律自然语言处理研究、计算法学及法律科技应用。为预训练不同版本的LEGAL-BERT,我们从公开资源爬取了12GB涵盖立法、法庭案例、合同等多领域的英文法律文本。针对特定子领域(如合同、欧盟法律、欧洲人权公约)优化的子模型或通用LEGAL-BERT,在专业任务上表现优于直接使用原始BERT。
此为基于美国合同文本预训练的子领域变体。
I. Chalkidis, M. Fergadiotis, P. Malakasiotis, N. Aletras与I. Androutsopoulos合作发表《LEGAL-BERT:法学院走出的法律专家》,收录于2020年在线举行的自然语言处理实证方法会议(EMNLP 2020)短论文集。(https://aclanthology.org/2020.findings-emnlp.261)
预训练语料
LEGAL-BERT的预训练语料包括:
- 来自欧盟法律数据库EURLEX(http://eur-lex.europa.eu)的116,062份欧盟立法文件;
- 英国立法门户(http://www.legislation.gov.uk)公开的61,826份英国立法文件;
- 欧洲法院(ECJ)的19,867个案例,同样源自EURLEX;
- 欧洲人权法院(ECHR)数据库HUDOC(http://hudoc.echr.coe.int/eng)的12,554个案例;
- 美国判例访问计划(https://case.law)收录的164,141个全美各地法院案例;
- 美国证券交易委员会EDGAR数据库(https://www.sec.gov/edgar.shtml)的76,366份美国合同。
预训练细节
- 使用Google BERT官方代码库(https://github.com/google-research/bert)进行训练;
- 发布与英文BERT-BASE结构相同的模型(12层/768隐藏层/12头注意力/1.1亿参数);
- 训练配置:100万步,256个长度512的序列批次,初始学习率1e-4;
- 依托Google Cloud TPU v3-8(由TensorFlow研究云计划免费提供)及GCP研究信用完成训练。
模型列表
模型名称 |
模型路径 |
训练语料 |
CONTRACTS-BERT-BASE |
nlpaueb/bert-base-uncased-contracts |
美国合同 |
EURLEX-BERT-BASE |
nlpaueb/bert-base-uncased-eurlex |
欧盟立法 |
ECHR-BERT-BASE |
nlpaueb/bert-base-uncased-echr |
欧洲人权案例 |
LEGAL-BERT-BASE * |
nlpaueb/legal-bert-base-uncased |
全领域 |
LEGAL-BERT-SMALL |
nlpaueb/legal-bert-small-uncased |
全领域 |
*注:LEGAL-BERT-BASE即论文中LEGAL-BERT-SC,使用法律语料训练的全新词表模型。
加载预训练模型
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("nlpaueb/bert-base-uncased-contracts")
model = AutoModel.from_pretrained("nlpaueb/bert-base-uncased-contracts")
下游任务评估
参考论文《LEGAL-BERT:法学院走出的法律专家》中的实验设计(Chalkidis等,2020)。
作者与文献
@inproceedings{chalkidis-etal-2020-legal,
title = "{LEGAL}-{BERT}: The Muppets straight out of Law School",
author = "Chalkidis, Ilias and Fergadiotis, Manos and Malakasiotis, Prodromos and Aletras, Nikolaos and Androutsopoulos, Ion",
booktitle = "Findings of EMNLP 2020",
year = "2020",
publisher = "ACL",
doi = "10.18653/v1/2020.findings-emnlp.261"
}
关于我们
雅典经济与商业大学自然语言处理组专注于自然语言处理技术研发,当前研究方向包括:
- 面向数据库、文档集及网络的问答系统(尤重生物医学领域);
- 基于数据库的本体自然语言生成;
- 文本分类(含垃圾/违规内容过滤);
- 信息抽取与舆情分析(含法律文本分析与情感挖掘);
- 希腊语NLP工具开发;
- 深度学习在NLP中的应用。
Ilias Chalkidis 代表AUEB自然语言处理组
| GitHub: @ilias.chalkidis | Twitter: @KiddoThe2B |