Legal-HeBERT
Legal-HeBERT 是一个面向希伯来语法律及立法领域的 BERT 模型,旨在推动希伯来语法律自然语言处理研究与工具开发。我们发布两个版本的 Legal-HeBERT:第一个版本是在法律和立法文件上微调 HeBERT 的模型;第二个版本则依据 HeBERT 的架构指南从头训练 BERT 模型。
我们持续收集法律数据、探索不同架构设计,并通过标注数据集和法律任务进行评估,以开发希伯来语法律工具。
训练数据
我们的训练数据集如下:
名称 |
希伯来语描述 |
大小 (GB) |
文档数量 |
句子数 |
词数 |
备注 |
以色列法律全书 |
ספר החוקים הישראלי |
0.05 |
2338 |
293352 |
4851063 |
|
最高法院判决书 |
מאגר פסקי הדין של בית המשפט העליון |
0.7 |
212348 |
5790138 |
79672415 |
|
监护法院裁决 |
החלטות בתי הדין למשמורת |
2.46 |
169,708 |
8,555,893 |
213,050,492 |
|
法律备忘录、次级立法草案及公开征求意见的支持性测试草案 |
תזכירי חוק, טיוטות חקיקת משנה וטיוטות מבחני תמיכה שהופצו להערות הציבור |
0.4 |
3,291 |
294,752 |
7,218,960 |
|
土地登记监督官判决 |
מאגר פסקי דין של המפקחים על רישום המקרקעין |
0.02 |
559 |
67,639 |
1,785,446 |
|
劳动法院裁决 - 新冠相关 |
מאגר החלטות בית הדין לעניין שירות התעסוקה – קורונה |
0.001 |
146 |
3505 |
60195 |
|
以色列土地委员会决议 |
החלטות מועצת מקרקעי ישראל |
|
118 |
11283 |
162692 |
聚合文件 |
纪律法庭与以色列警察上诉法庭判决 |
פסקי דין של בית הדין למשמעת ובית הדין לערעורים של משטרת ישראל |
0.02 |
54 |
83724 |
1743419 |
聚合文件 |
卫生部纪律上诉委员会 |
ועדת ערר לדין משמעתי במשרד הבריאות |
0.004 |
252 |
21010 |
429807 |
465份文件为扫描件未解析 |
总检察长立场文件 |
מאגר התייצבויות היועץ המשפטי לממשלה |
0.008 |
281 |
32724 |
813877 |
|
总检察长法律意见书 |
מאגר חוות דעת היועץ המשפטי לממשלה |
0.002 |
44 |
7132 |
188053 |
|
|
|
|
|
|
|
|
总计 |
|
3.665 |
389,139 |
15,161,152 |
309,976,419 |
|
感谢 Yair Gardin 提供治理数据指引,Elhanan Schwarts 收集并解析以色列法律全书,以及 Jonathan Schler 收集最高法院判决书。
训练过程
- 词汇量:50,000 词符
- 4 轮训练(约 100 万步)
- 学习率=5e-5
- 掩码概率=0.15
- 批量大小=32(每块 GPU)
- 硬件:NVIDIA GeForce RTX 2080 TI + NVIDIA GeForce RTX 3090(训练时长 1 周)
额外训练设置:
微调版 HeBERT 模型: 冻结前八层(参照 Lee et al. (2019) 建议)
从头训练的 Legal-HeBERT: 训练流程类似 HeBERT,并受 Chalkidis et al. (2020) 启发
使用方法
模型已发布于 Hugging Face Hub,可针对下游任务微调:
from transformers import AutoTokenizer, AutoModel
model_name = 'avichr/Legal-heBERT_ft'
model_name = 'avichr/Legal-heBERT'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)
from transformers import pipeline
fill_mask = pipeline(
"fill-mask",
model=model_name,
)
fill_mask("הקורונה לקחה את [MASK] ולנו לא נשאר דבר.")
敬请关注!
我们仍在优化模型与数据集,本页将随进展更新。欢迎合作。
引用方式
Chriqui, Avihay, Yahav, Inbal and Bar-Siman-Tov, Ittai, Legal HeBERT: A BERT-based NLP Model for Hebrew Legal, Judicial and Legislative Texts (June 27, 2022). 参见: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4147127
@article{chriqui2021hebert,
title={Legal HeBERT: A BERT-based NLP Model for Hebrew Legal, Judicial and Legislative Texts},
author={Chriqui, Avihay, Yahav, Inbal and Bar-Siman-Tov, Ittai},
journal={SSRN preprint:4147127},
year={2022}
}
联系我们
Avichay Chriqui,The Coller AI 实验室
Inbal yahav,The Coller AI 实验室
Ittai Bar-Siman-Tov,BIU 法律、数据科学与数字伦理创新实验室
感谢,תודה,شكرا