这是一个针对葡萄牙语法律领域的命名实体识别(NER)模型,基于BERT基础架构微调而成,专门用于识别法律文本中的命名实体。
下载量 2,429
发布时间 : 3/2/2022
模型介绍
内容详情
替代品
模型简介
该模型是在LeNER_br数据集上微调的BERT基础版模型,专门用于葡萄牙语法律文本中的命名实体识别任务。
模型特点
法律领域专业化
专门针对葡萄牙语法律文本进行优化,能有效识别法律文档中的命名实体
两阶段训练
先进行语言模型专业化微调,再进行NER任务微调,提高了模型质量
高性能指标
在LeNER_br数据集上达到F1值0.893的优异表现
模型能力
法律文本命名实体识别
葡萄牙语文本处理
标记分类
使用案例
法律文档处理
法律条文分析
识别法律条文中的关键实体如法律条款、机构名称等
准确识别法律文本中的各类实体
法律研究辅助
帮助法律研究人员快速提取文档中的关键信息
提高法律文档处理效率
语言:
- 葡萄牙语 标签:
- 训练生成 数据集:
- lener_br 评估指标:
- 精确率
- 召回率
- F1值
- 准确率 模型索引:
- 名称: 检查点
结果:
- 任务:
名称: 标记分类
类型: token-classification
数据集:
名称: lener_br
类型: lener_br
指标:
- 名称: F1值 类型: f1 值: 0.8926146010186757
- 名称: 精确率 类型: precision 值: 0.8810222036028488
- 名称: 召回率 类型: recall 值: 0.9045161290322581
- 名称: 准确率 类型: accuracy 值: 0.9759397808828684
- 名称: 损失 类型: loss 值: 0.18803243339061737 小部件:
- 任务:
名称: 标记分类
类型: token-classification
数据集:
名称: lener_br
类型: lener_br
指标:
- 文本: "事故或居住地管辖的法医研究所应在90天内向受害者提供报告(1974年12月19日第6.194/74号法律第5条第5款),这一技术功能可以通过法院命令进行的专家证据或行政范围内进行的与案卷中其他证据一致的技术证据来补充。"
- 文本: "我补充说,不应提及违反《联邦宪法》第114条第3款的情况,因为该条款无关紧要,涉及劳动检察院在基本活动罢工情况下提起集体争议的可能性。"
- 文本: "规定学生实习;修改1943年5月1日第5.452号法令批准的《劳动法整合》第428条和1996年12月20日第9.394号法律的措辞;废除1977年12月7日第6.494号法律、1994年3月23日第8.859号法律、1996年12月20日第9.394号法律第82条的唯一段落以及2001年8月24日第2.164-41号临时措施第6条;并作出其他规定。"
(BERT基础版) 葡萄牙语法律领域NER模型
ner-bert-base-portuguese-cased-lenerbr 是一个葡萄牙语法律领域的NER模型(标记分类),于2021年12月20日在Google Colab上从模型pierreguillou/bert-base-cased-pt-lenerbr通过NER目标在数据集LeNER_br上微调而成。
由于BERTimbau基础版和微调数据集的规模较小,模型在训练结束前出现了过拟合。以下是验证数据集上的整体最终指标(注意:查看“按命名实体验证指标”段落以获取详细指标):
- f1: 0.8926146010186757
- 精确率: 0.8810222036028488
- 召回率: 0.9045161290322581
- 准确率: 0.9759397808828684
- 损失: 0.18803243339061737
也可以查看该模型的大版本,其f1值为0.908。
注意:模型pierreguillou/bert-base-cased-pt-lenerbr是一个通过使用MASK目标在数据集LeNER-Br语言建模上对模型BERTimbau基础版进行微调而创建的语言模型。这种在NER任务微调之前对语言模型的首次专业化略微提高了模型质量。为了证明这一点,以下是直接从模型BERTimbau基础版(非专业化语言模型)微调的NER模型的结果:
- f1: 0.8716487228203504
- 精确率: 0.8559286898839138
- 召回率: 0.8879569892473118
- 准确率: 0.9755893153732458
- 损失: 0.1133928969502449
博客文章
NLP | 巴西法律领域命名实体识别(NER)模型与Web应用 (2021年12月29日)
小部件与应用
您可以在本页的小部件中测试此模型。
还可以使用NER应用,该应用可以比较在法律LeNER-Br数据集上拟合的两个BERT模型(基础版和大版本)。
在生产中使用模型进行推理
# 安装pytorch:查看 https://pytorch.org/
# !pip install transformers
from transformers import AutoModelForTokenClassification, AutoTokenizer
import torch
# 参数
model_name = "pierreguillou/ner-bert-base-cased-pt-lenerbr"
model = AutoModelForTokenClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
input_text = "我补充说,不应提及违反《联邦宪法》第114条第3款的情况,因为该条款无关紧要,涉及劳动检察院在基本活动罢工情况下提起集体争议的可能性。"
# 标记化
inputs = tokenizer(input_text, max_length=512, truncation=True, return_tensors="pt")
tokens = inputs.tokens()
# 获取预测
outputs = model(**inputs).logits
predictions = torch.argmax(outputs, dim=2)
# 打印预测
for token, prediction in zip(tokens, predictions[0].numpy()):
print((token, model.config.id2label[prediction]))
您也可以使用pipeline。然而,它似乎在输入序列的最大长度方面存在问题。
!pip install transformers
import transformers
from transformers import pipeline
model_name = "pierreguillou/ner-bert-base-cased-pt-lenerbr"
ner = pipeline(
"ner",
model=model_name
)
ner(input_text)
训练过程
笔记本
微调的笔记本(HuggingFace_Notebook_token_classification_NER_LeNER_Br.ipynb)在github上。
超参数
批次、学习率等...
- 每设备批次大小 = 2
- 梯度累积步数 = 2
- 学习率 = 2e-5
- 训练轮数 = 10
- 权重衰减 = 0.01
- 优化器 = AdamW
- betas = (0.9,0.999)
- epsilon = 1e-08
- 学习率调度器类型 = linear
- 种子 = 7
保存模型 & 加载最佳模型
- 保存总数限制 = 2
- 日志步数 = 300
- 评估步数 = 日志步数
- 评估策略 = 'steps'
- 日志策略 = 'steps'
- 保存策略 = 'steps'
- 保存步数 = 日志步数
- 结束时加载最佳模型 = True
- fp16 = True
通过指标获取最佳模型
- 最佳模型指标 = 'eval_f1'
- 越大越好 = True
训练结果
样本数 = 7828
训练轮数 = 10
每设备瞬时批次大小 = 2
总训练批次大小(含并行、分布式和累积)= 4
梯度累积步数 = 2
总优化步数 = 19570
步数 训练损失 验证损失 精确率 召回率 F1 准确率
300 0.127600 0.178613 0.722909 0.741720 0.732194 0.948802
600 0.088200 0.136965 0.733636 0.867742 0.795074 0.963079
900 0.078000 0.128858 0.791912 0.838065 0.814335 0.965243
1200 0.077800 0.126345 0.815400 0.865376 0.839645 0.967849
1500 0.074100 0.148207 0.779274 0.895914 0.833533 0.960184
1800 0.059500 0.116634 0.830829 0.868172 0.849090 0.969342
2100 0.044500 0.208459 0.887150 0.816559 0.850392 0.960535
2400 0.029400 0.136352 0.867821 0.851398 0.859531 0.970271
2700 0.025000 0.165837 0.814881 0.878495 0.845493 0.961235
3000 0.038400 0.120629 0.811719 0.893763 0.850768 0.971506
3300 0.026200 0.175094 0.823435 0.882581 0.851983 0.962957
3600 0.025600 0.178438 0.881095 0.886022 0.883551 0.963689
3900 0.041000 0.134648 0.789035 0.916129 0.847846 0.967681
4200 0.026700 0.130178 0.821275 0.903226 0.860303 0.972313
4500 0.018500 0.139294 0.844016 0.875054 0.859255 0.971140
4800 0.020800 0.197811 0.892504 0.873118 0.882705 0.965883
5100 0.019300 0.161239 0.848746 0.888172 0.868012 0.967849
5400 0.024000 0.139131 0.837507 0.913333 0.873778 0.970591
5700 0.018400 0.157223 0.899754 0.864731 0.881895 0.970210
6000 0.023500 0.137022 0.883018 0.873333 0.878149 0.973243
6300 0.009300 0.181448 0.840490 0.900860 0.869628 0.968290
6600 0.019200 0.173125 0.821316 0.896559 0.857290 0.966736
6900 0.016100 0.143160 0.789938 0.904946 0.843540 0.968245
7200 0.017000 0.145755 0.823274 0.897634 0.858848 0.969037
7500 0.012100 0.159342 0.825694 0.883226 0.853491 0.967468
7800 0.013800 0.194886 0.861237 0.859570 0.860403 0.964771
8100 0.008000 0.140271 0.829914 0.896129 0.861752 0.971567
8400 0.010300 0.143318 0.826844 0.908817 0.865895 0.973578
8700 0.015000 0.143392 0.847336 0.889247 0.867786 0.973365
9000 0.006000 0.143512 0.847795 0.905591 0.875741 0.972892
9300 0.011800 0.138747 0.827133 0.894194 0.859357 0.971673
9600 0.008500 0.159490 0.837030 0.909032 0.871546 0.970028
9900 0.010700 0.159249 0.
Indonesian Roberta Base Posp Tagger
MIT
这是一个基于印尼语RoBERTa模型微调的词性标注模型,在indonlu数据集上训练,用于印尼语文本的词性标注任务。
序列标注
Transformers

其他
I
w11wo
2.2M
7
Bert Base NER
MIT
基于BERT微调的命名实体识别模型,可识别四类实体:地点(LOC)、组织机构(ORG)、人名(PER)和杂项(MISC)
序列标注
英语
B
dslim
1.8M
592
Deid Roberta I2b2
MIT
该模型是基于RoBERTa微调的序列标注模型,用于识别和移除医疗记录中的受保护健康信息(PHI/PII)。
序列标注
Transformers

支持多种语言
D
obi
1.1M
33
Ner English Fast
Flair自带的英文快速4类命名实体识别模型,基于Flair嵌入和LSTM-CRF架构,在CoNLL-03数据集上达到92.92的F1分数。
序列标注
PyTorch
英语
N
flair
978.01k
24
French Camembert Postag Model
基于Camembert-base的法语词性标注模型,使用free-french-treebank数据集训练
序列标注
Transformers

法语
F
gilf
950.03k
9
Xlm Roberta Large Ner Spanish
基于XLM-Roberta-large架构微调的西班牙语命名实体识别模型,在CoNLL-2002数据集上表现优异。
序列标注
Transformers

西班牙语
X
MMG
767.35k
29
Nusabert Ner V1.3
MIT
基于NusaBert-v1.3在印尼语NER任务上微调的命名实体识别模型
序列标注
Transformers

其他
N
cahya
759.09k
3
Ner English Large
Flair框架内置的英文4类大型NER模型,基于文档级XLM-R嵌入和FLERT技术,在CoNLL-03数据集上F1分数达94.36。
序列标注
PyTorch
英语
N
flair
749.04k
44
Punctuate All
MIT
基于xlm-roberta-base微调的多语言标点符号预测模型,支持12种欧洲语言的标点符号自动补全
序列标注
Transformers

P
kredor
728.70k
20
Xlm Roberta Ner Japanese
MIT
基于xlm-roberta-base微调的日语命名实体识别模型
序列标注
Transformers

支持多种语言
X
tsmatz
630.71k
25
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文