语言:
- 英文
标签:
- 法律
许可证: apache-2.0
指标:
- 精确率
- 召回率
法律专用ROBERTA模型
我们推出LEGAL-ROBERTA,这是一个基于大规模法律语料库(4.6 GB)微调的领域专用语言表征模型。
演示示例
'本<mask>协议由通用汽车公司与约翰·默里签订。'
模型 |
首选词 |
次选词 |
第三选择 |
第四选择 |
第五选择 |
Bert |
新 |
当前 |
提议 |
营销 |
联合 |
legalBert |
和解 |
信函 |
经销商 |
主协议 |
补充 |
legalRoberta |
许可 |
和解 |
合同 |
许可证 |
信托 |
LegalRoberta准确捕捉案例特征
'申请人陈述其丈夫在阿达纳安全局拘留期间遭受了等同于<mask>的待遇。'
模型 |
首选词 |
次选词 |
第三选择 |
第四选择 |
第五选择 |
Bert |
酷刑 |
强奸 |
虐待 |
死亡 |
暴力 |
legalBert |
酷刑 |
拘留 |
逮捕 |
强奸 |
死亡 |
legalRoberta |
酷刑 |
虐待 |
精神错乱 |
残忍 |
监禁 |
'建立用于识别和登记<mask>动物的系统,并规范牛肉及牛肉产品标签。':
模型 |
首选词 |
次选词 |
第三选择 |
第四选择 |
第五选择 |
Bert |
农场 |
牲畜 |
役用 |
家养 |
野生 |
legalBert |
活体 |
牛肉 |
农场 |
宠物 |
乳制品 |
legalRoberta |
家养 |
全部 |
牛肉 |
野生 |
已登记 |
加载预训练模型
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("saibo/legal-roberta-base")
model = AutoModel.from_pretrained("saibo/legal-roberta-base")
训练数据
训练数据包含三个来源:
-
专利诉讼数据集(https://www.kaggle.com/uspto/patent-litigations):涵盖52年间7.4万起案件及500余万份相关文档,包含诉讼方、律师、结果、地点和日期等5类文件。
- 1.57GB
- 缩写:PL
- 清洗后1.1GB
-
判例法访问项目(CAP)(https://case.law/):收录美国360年判例历史,包含4000万页法院裁决和650万起独立案件。
- 原始数据5.6GB
- 缩写:CAP
- 清洗后2.8GB
-
谷歌专利公共数据(https://www.kaggle.com/bigquery/patents):提供可公开访问的关联数据库表,支持国际专利体系实证分析。
- BigQuery平台(https://www.kaggle.com/sohier/beyond-queries-exploring-the-bigquery-api)
- 缩写:GPPD(1.1GB,来源:patents-public-data.uspto_oce_litigation.documents)
- 清洗后1GB
训练流程
基于预训练ROBERTA-BASE模型,在法律语料库上进行微调。
微调配置:
- 学习率 = 5e-5(带衰减,最终4.95e-8)
- 训练轮次 = 3
- 总步数 = 446500
- 总浮点运算量 = 2.7365e18
损失值从1.850降至0.880
法律语料微调后的困惑度 = 2.2735
硬件配置:
2*GeForce GTX TITAN X 计算能力: 5.2
评估结果
在两个下游任务进行基准测试:法律文本多标签分类和案例描述关键词检索。
- 法律多标签文本分类(LMTC)
数据集:
标签总数:4271
高频标签:739
低频标签:3369
零样本标签:163
超参数:
- 学习率:1e-05
- 批次大小:4
- 最大序列长度:512
- 最大标签数:15
- 低频阈值:50
- 训练轮次:10
- 丢弃率:0.1
- 早停机制:启用
- 耐心值:3
局限性:
在掩码语言模型展示中,标记带有Ġ前缀。这虽显异常但暂未修复。
需说明在BPE分词器(ROBERTA所用)中,Ġ符号表示新词元结尾,且预训练分词器词汇表多数标记以Ġ开头。
示例:
import transformers
tokenizer = transformers.RobertaTokenizer.from_pretrained('roberta-base')
print(tokenizer.tokenize('I love salad'))
输出:
['I', 'Ġlove', 'Ġsalad']
LegalRoBERTa的预训练受限于可用法律语料规模,且训练步数少于主流领域适配模型,导致模型明显欠拟合。
引用信息