Legal-heBERT开源模型 - 助力希伯来语法律领域自然语言处理工具开发

首页

Legal Hebert

由 avichr 开发

Legal-HeBERT 是一款专为希伯来语法律及立法领域设计的 BERT 模型，旨在推动希伯来语法律自然语言处理研究及工具开发。

大型语言模型

Transformers

#希伯来语法律文本处理 #BERT微调与训练 #司法判决分析

下载量 158

发布时间 : 4/19/2022

模型简介

Legal-HeBERT 提供了两个版本：基于 HeBERT 微调的版本和从头训练的版本，适用于希伯来语法律与立法文件的处理。

模型特点

专为希伯来语法律文本设计

模型针对希伯来语法律、司法和立法文本进行了优化，适用于法律领域的自然语言处理任务。

两个版本选择

提供基于 HeBERT 微调的版本和从头训练的版本，满足不同需求。

大规模训练数据

使用了超过 300 亿词的希伯来语法律文本进行训练，涵盖多种法律文件类型。

模型能力

法律文本理解

法律文本分类

法律文本生成

法律文本问答

使用案例

法律研究

法律条文分析

用于分析希伯来语法律条文，提取关键信息。

判决书摘要

自动生成希伯来语法律判决书的摘要。

法律工具开发

法律问答系统

开发基于希伯来语的法律问答系统。

🚀 Legal-HeBERT

Legal-HeBERT是一个适用于希伯来语法律和立法领域的BERT模型，旨在推动希伯来语法律自然语言处理（NLP）研究和工具的开发。我们发布了两个版本的Legal-HeBERT。第一个版本是在HeBERT基础上针对法律和立法文件进行微调的模型；第二个版本则是依据HeBERT的架构准则从头开始训练的BERT模型。
我们持续收集法律数据、研究不同的架构设计，并进行标注数据集和法律任务，以评估和开发希伯来语法律工具。

✨ 主要特性

专门为希伯来语法律和立法领域设计。
提供微调版和从头训练版两个版本。
持续收集数据和优化模型，推动希伯来语法律NLP工具的发展。

📦 安装指南

# !pip install transformers==4.14.1

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModel

model_name = 'avichr/Legal-heBERT_ft' # 用于微调后的HeBERT模型 
model_name = 'avichr/Legal-heBERT' # 用于从头开始训练的法律HeBERT模型

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

from transformers import pipeline
fill_mask = pipeline(
    "fill-mask",
    model=model_name,
)
fill_mask("הקורונה לקחה את [MASK] ולנו לא נשאר דבר.")

📚 详细文档

训练数据

我们的训练数据集如下：

属性	详情
模型类型	Legal-HeBERT是适用于希伯来语法律和立法领域的BERT模型，有微调版和从头训练版两个版本。
训练数据
名称	希伯来语描述
---	---
以色列法律全书	ספר החוקים הישראלי
最高法院判决书	מאגר פסקי הדין של בית המשפט העליון
监护法庭判决书	החלטות בתי הדין למשמורת
已向公众发布征求意见的法律备忘录、二级立法草案和支持测试草案	תזכירי חוק, טיוטות חקיקת משנה וטיוטות מבחני תמיכה שהופצו להערות הציבור
土地登记监管判决书	מאגר פסקי דין של המפקחים על רישום המקרקעין
劳动法庭 - 新冠疫情相关判决	מאגר החלטות בית הדין לעניין שירות התעסוקה – קורונה
以色列土地委员会决议	החלטות מועצת מקרקעי ישראל
纪律法庭和以色列警察上诉法庭判决书	פסקי דין של בית הדין למשמעת ובית הדין לערעורים של משטרת ישראל
卫生部纪律上诉委员会	ועדת ערר לדין משמעתי במשרד הבריאות
总检察长立场文件	מאגר התייצבויות היועץ המשפטי לממשלה
总检察长法律意见	מאגר חוות דעת היועץ המשפטי לממשלה
总计

我们感谢 Yair Gardin 提供治理数据，感谢 Elhanan Schwarts 收集和解析以色列法律全书，感谢 Jonathan Schler 收集最高法院判决书。

训练过程

词汇量大小：50,000 个词元
4 个训练周期（约 100 万步）
学习率（lr）= 5e-5
掩码语言模型概率（mlm_probability）= 0.15
批量大小 = 32（每个 GPU）
使用 NVIDIA GeForce RTX 2080 TI + NVIDIA GeForce RTX 3090 进行训练，耗时 1 周

额外训练设置：

微调 HeBERT 模型：冻结前八层（参考 Lee et al. (2019) 的建议）
从头开始训练的 Legal-HeBERT：训练过程与 HeBERT 类似，受 Chalkidis et al. (2020) 启发

📄 许可证

如果您使用了此模型，请按以下格式引用我们： Chriqui, Avihay, Yahav, Inbal 和 Bar-Siman-Tov, Ittai, Legal HeBERT: A BERT-based NLP Model for Hebrew Legal, Judicial and Legislative Texts (2022 年 6 月 27 日)。可访问：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4147127

@article{chriqui2021hebert,
  title={Legal HeBERT: A BERT-based NLP Model for Hebrew Legal, Judicial and Legislative Texts},
  author={Chriqui, Avihay, Yahav, Inbal and Bar-Siman-Tov, Ittai},
  journal={SSRN preprint:4147127},
  year={2022}
}