基础模型:
- pierreguillou/ner-bert-large-cased-pt-lenerbr
数据集:
- carolina-c4ai/corpus-carolina
语言:
- 葡萄牙语
评估指标:
- 精确率
- 召回率
- F1值
- 准确率
标签:
- 训练生成
- 法律
示例输入:
- 文本: >-
伪造公共文件、使用伪造文件。2013年1月12日技术责任注解第1055330634101号,关于联邦法律第531条。这是关于由CREA-SP注册的可能伪造技术文件的陈述,由Francis Pantele da Cozzi先生完成,CPF: 412.612.341-32,电话 (31) 951358433,邮箱 fran@bol.com,涉及Marinalva Bete Raz女士的雇佣,CPF: 049.567.041-22,电话 (61) 9412 3333,白人女性,政治观点保守,宗教信仰福音派。Marinalva Bete Raz于2013年5月14日索赔精神损害赔偿金82,662.00雷亚尔(八万二千六百六十二雷亚尔),与IP地址192.168.01及CEP 59123-222,Rua dos Pioneiros,450号,Jardim Esmeralda,Campo Grande,MS的地址相关。她声称急需这笔钱,因为她的健康受到影响,患有哮喘。Francis Pantele da Cozzi一方表示仅有5,534.00雷亚尔资产,需要这笔钱抚养其未成年子女Josué Vittas。
模型索引:
- 名称: 检查点
结果:
- 任务:
类型: 标记分类
名称: 标记分类
数据集:
名称: carolina-c4ai/corpus-carolina
类型: carolina-c4ai/corpus-carolina
评估指标:
- 类型: F1值
值: 0.9470445768148197
名称: F1
- 类型: 精确率
值: 0.9544794827813696
名称: 精确率
- 类型: 召回率
值: 0.9191397849462366
名称: 召回率
- 类型: 准确率
值: 0.9470445768148197
名称: 准确率
- 类型: 损失
值: 0.939724603793193
名称: 损失
流水线标签: 标记分类
葡萄牙语法律领域的命名实体识别模型(符合巴西数据保护法LGPD)
legal-bert-lgpd 是一个葡萄牙语法律领域的命名实体识别模型(标记分类),将标记分类为以下类别:
标签 |
姓名 |
日期 |
地址 |
邮政编码 |
CPF |
电话 |
电子邮件 |
金额 |
使用方法
import torch
from transformers import pipeline, AutoTokenizer
MODEL_NAME = "celiudos/legal-bert-lgpd"
tokenizer = AutoTokenizer.from_pretrained(
MODEL_NAME,
model_max_length=512,
)
pipe = pipeline(
"ner",
tokenizer=tokenizer,
model=MODEL_NAME,
stride=100,
aggregation_strategy="first",
device=0 if torch.cuda.is_available() else -1,
)
pipe(
"技术责任注解第1055330634101号,2013年1月12日,关于联邦法律第531条。这是关于由CREA-SP注册的可能伪造技术文件的陈述,由Francis Pantele da Cozzi先生完成,CPF: 412.612.341-32,电话 (31) 951358433,邮箱 fran@bol.com,涉及Marinalva Bete Raz女士的雇佣,CPF: 049.567.041-22,电话 (61) 9412 3333,白人女性,政治观点保守,宗教信仰福音派。Marinalva Bete Raz于2013年5月14日索赔精神损害赔偿金82,662.00雷亚尔(八万二千六百六十二雷亚尔),与IP地址192.168.01及CEP 59123-222,Rua dos Pioneiros,450号,Jardim Esmeralda,Campo Grande,MS的地址相关。"
)
输出
[
{
"entity_group": "日期",
"score": 0.9828296,
"word": "2013年1月12日",
"start": 57,
"end": 78
},
{
"entity_group": "姓名",
"score": 0.95766664,
"word": "Francis Pantele da Cozzi",
"start": 234,
"end": 258
},
{
"entity_group": "CPF",
"score": 0.9954297,
"word": "412. 612. 341 - 32",
"start": 265,
"end": 279
},
{
"entity_group": "电话",
"score": 0.5634508,
"word": "31 )",
"start": 291,
"end": 294
},
{
"entity_group": "电子邮件",
"score": 0.9973985,
"word": "fran @ bol. com",
"start": 312,
"end": 324
},
{
"entity_group": "姓名",
"score": 0.96683884,
"word": "Marinalva Bete Raz",
"start": 366,
"end": 384
},
{
"entity_group": "CPF",
"score": 0.99713326,
"word": "049. 567. 041 - 22",
"start": 391,
"end": 405
},
{
"entity_group": "电话",
"score": 0.90854883,
"word": "( 61 ) 9412 3333",
"start": 416,
"end": 430
},
{
"entity_group": "姓名",
"score": 0.9364093,
"word": "Marinalva Bete Raz",
"start": 499,
"end": 517
},
{
"entity_group": "日期",
"score": 0.9986375,
"word": "14",
"start": 566,
"end": 568
},
{
"entity_group": "日期",
"score": 0.9968226,
"word": "05",
"start": 569,
"end": 571
},
{
"entity_group": "日期",
"score": 0.9992943,
"word": "2013",
"start": 572,
"end": 576
},
{
"entity_group": "金额",
"score": 0.99847966,
"word": "R $ 82. 662, 00",
"start": 589,
"end": 601
},
{
"entity_group": "邮政编码",
"score": 0.9977593,
"word": "59123 - 222",
"start": 728,
"end": 737
},
{
"entity_group": "地址",
"score": 0.9711078,
"word": "Rua dos Pioneiros",
"start": 739,
"end": 756
},
{
"entity_group": "地址",
"score": 0.9741938,
"word": "Jardim Esmeralda",
"start": 766,
"end": 782
},
{
"entity_group": "地址",
"score": 0.9352198,
"word": "Campo Grande, MS",
"start": 784,
"end": 800
}
]
自定义输入使用
import gradio as gr
def ner(text):
return {"text": text, "entities": pipe(text)}
gr.Interface(
ner,
gr.Textbox(placeholder="在此输入句子..."),
gr.HighlightedText(),
live=True,
examples=[
"技术责任注解第1055330634101号,2013年1月12日,关于联邦法律第531条。这是关于由CREA-SP注册的可能伪造技术文件的陈述,由Francis Pantele da Cozzi先生完成,CPF: 412.612.341-32,电话 (31) 951358433,邮箱 fran@bol.com。",
],
).launch()
训练配置
样本数量 = 3,971
训练轮数 = 5
每个设备的即时批次大小 = 16
总训练批次大小(含并行、分布式及累积) = 16
梯度累积步数 = 1
总优化步数 = 1,245
可训练参数数量 = 333,364,241