Legal-HeBERT
Legal-HeBERT 是一款专为希伯来语法律及立法领域设计的 BERT 模型,旨在推动希伯来语法律自然语言处理研究及工具开发。我们发布了两个版本的 Legal-HeBERT:
- 第一版:基于 HeBERT 模型微调,适用于法律与立法文件
- 第二版:采用 HeBERT 架构指南从头训练的 BERT 模型
我们持续收集法律数据、探索不同架构设计,并通过标注数据集和开发法律任务来评估和构建希伯来语法律工具。
训练数据
我们的训练数据集如下:
名称 |
希伯来语描述 |
大小 (GB) |
文档数量 |
句子数 |
词数 |
备注 |
以色列法律全书 |
ספר החוקים הישראלי |
0.05 |
2338 |
293,352 |
4,851,063 |
|
最高法院判决书 |
פסקי הדין של בית המשפט העליון |
0.7 |
212,348 |
5,790,138 |
79,672,415 |
|
监护法院裁决 |
החלטות בתי הדין למשמורת |
2.46 |
169,708 |
8,555,893 |
213,050,492 |
|
法律备忘录、次级立法草案及公开征求意见的支持测试草案 |
תזכירי חוק, טיוטות חקיקת משנה וטיוטות מבחני תמיכה להערות הציבור |
0.4 |
3,291 |
294,752 |
7,218,960 |
|
土地登记监督裁决 |
פסקי דין של המפקחים על רישום המקרקעין |
0.02 |
559 |
67,639 |
1,785,446 |
|
劳动法院裁决(疫情相关) |
החלטות בית הדין לעניין שירות התעסוקה – קורונה |
0.001 |
146 |
3,505 |
60,195 |
|
以色列土地委员会决议 |
החלטות מועצת מקרקעי ישראל |
- |
118 |
11,283 |
162,692 |
聚合文件 |
纪律法庭与以色列警察上诉法庭判决 |
פסקי דין של בית הדין למשמעת ובית הדין לערעורים של משטרת ישראל |
0.02 |
54 |
83,724 |
1,743,419 |
聚合文件 |
卫生部纪律上诉委员会裁决 |
ועדת ערר לדין משמעתי במשרד הבריאות |
0.004 |
252 |
21,010 |
429,807 |
465份扫描文件未解析 |
总检察长立场文件 |
התייצבויות היועץ המשפטי לממשלה |
0.008 |
281 |
32,724 |
813,877 |
|
总检察长法律意见书 |
חוות דעת היועץ המשפטי לממשלה |
0.002 |
44 |
7,132 |
188,053 |
|
总计 |
|
3.665 |
389,139 |
15,161,152 |
309,976,419 |
|
特别鸣谢:
- Yair Gardin 提供治理数据
- Elhanan Schwarts 收集并解析以色列法律全书
- Jonathan Schler 收集最高法院判决书
训练过程
- 词汇量:50,000 词符
- 训练轮次:4 轮(约 100 万步)
- 学习率:5e-5
- 掩码概率:15%
- 批次大小:32(每张 GPU)
- 硬件:NVIDIA GeForce RTX 2080 TI + RTX 3090(训练时长 1 周)
附加训练设置:
微调版 HeBERT:冻结前八层(参考 Lee et al. (2019))
从头训练的 Legal-HeBERT:训练流程参照 HeBERT,并受 Chalkidis et al. (2020) 启发
使用方法
模型已发布于 Hugging Face Hub,可微调至下游任务:
from transformers import AutoTokenizer, AutoModel
model_name = 'avichr/Legal-heBERT_ft'
model_name = 'avichr/Legal-heBERT'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)
from transformers import pipeline
fill_mask = pipeline("fill-mask", model=model_name)
fill_mask("הקורונה לקחה את [MASK] ולנו לא נשאר דבר.")
持续更新
我们仍在优化模型与数据集,本页面将随进展更新。欢迎合作!
引用格式
Chriqui, Avihay, Yahav, Inbal and Bar-Siman-Tov, Ittai. Legal HeBERT: A BERT-based NLP Model for Hebrew Legal, Judicial and Legislative Texts (June 27, 2022). Available at: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4147127
@article{chriqui2021hebert,
title={Legal HeBERT: A BERT-based NLP Model for Hebrew Legal, Judicial and Legislative Texts},
author={Chriqui, Avihay, Yahav, Inbal and Bar-Siman-Tov, Ittai},
journal={SSRN preprint:4147127},
year={2022}
}
联系我们
Avichay Chriqui - The Coller AI Lab
Inbal Yahav - The Coller AI Lab
Ittai Bar-Siman-Tov - BIU 法律、数据科学与数字伦理创新实验室
感谢!תודה(希伯来语感谢) شكرا(阿拉伯语感谢)