🚀 Legal-BERT
Legal-BERT是一个专门为法律领域设计的模型,它基于BERT架构,使用大规模法律案例语料进行预训练,能够有效处理法律文本相关的任务,如法律案例分类、多项选择等。
✨ 主要特性
- 专业适配:针对法律文本进行了定制化的分词和句子分割,更适合处理法律领域的自然语言处理任务。
- 大规模语料:使用从1965年至今的整个哈佛法律案例语料库进行预训练,语料规模达37GB,远大于最初训练BERT的语料库。
📦 安装指南
文档未提供具体安装步骤,故跳过该章节。
💻 使用示例
基础用法
文档未提供基础用法的代码示例,故跳过该部分。
高级用法
文档未提供高级用法的代码示例,故跳过该部分。
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
基于BERT架构的法律领域预训练模型 |
训练数据 |
从1965年至今的整个哈佛法律案例语料库(https://case.law/),规模达37GB,包含3,446,187个联邦和州法院的法律判决 |
训练目标
该模型以基础BERT模型(uncased,1.1亿参数)bert-base-uncased 为基础进行初始化,并在掩码语言模型(MLM)和下一句预测(NSP)目标上额外训练了100万步,同时针对法律文本进行了分词和句子分割的适配(详见论文)。
使用说明
请参考 casehold仓库 中的脚本,这些脚本支持计算预训练损失,并在Legal-BERT上进行微调,以完成论文中描述的分类和多项选择任务:推翻原判、服务条款、CaseHOLD。
🔧 技术细节
本模型的预训练语料库构建是通过摄取从1965年至今的整个哈佛法律案例语料库完成的。该语料库规模达37GB,比最初用于训练BERT的BookCorpus/Wikipedia语料库(15GB)更大,包含了所有联邦和州法院的3,446,187个法律判决。模型以基础BERT模型为初始化,在MLM和NSP目标上进行额外训练,并针对法律文本的特点对分词和句子分割进行了调整。
📄 许可证
文档未提供许可证信息,故跳过该章节。
📄 引用信息
@inproceedings{zhengguha2021,
title={When Does Pretraining Help? Assessing Self-Supervised Learning for Law and the CaseHOLD Dataset},
author={Lucia Zheng and Neel Guha and Brandon R. Anderson and Peter Henderson and Daniel E. Ho},
year={2021},
eprint={2104.08671},
archivePrefix={arXiv},
primaryClass={cs.CL},
booktitle={Proceedings of the 18th International Conference on Artificial Intelligence and Law},
publisher={Association for Computing Machinery}
}
Lucia Zheng, Neel Guha, Brandon R. Anderson, Peter Henderson, and Daniel E. Ho. 2021. When Does Pretraining Help? Assessing Self-Supervised Learning for Law and the CaseHOLD Dataset. In Proceedings of the 18th International Conference on Artificial Intelligence and Law (ICAIL '21), June 21 - 25, 2021, São Paulo, Brazil. ACM Inc., New York, NY, (in press). arXiv: 2104.08671 [cs.CL].