klue-roberta-small-ner-identified开源韩语模型 - 高效实现个人信息脱敏识别

首页

Klue Roberta Small Ner Identified

由 vitus9988 开发

基于klue/roberta-small微调的韩语命名实体识别模型，专注于个人信息脱敏

序列标注

Transformers

韩语#韩语NER #个人信息脱敏 #高精度实体识别

下载量 6,273

发布时间 : 5/16/2024

模型简介

该模型用于韩语文本中的命名实体识别，特别针对个人信息脱敏场景，能识别包括人名、地址、电话号码、邮箱等10类实体

模型特点

高精度识别

在评估集上达到99.59%的F1值，能准确识别各类个人信息

多类别支持

支持10类个人信息的识别，包括姓名、地址、证件号码等敏感信息

韩语优化

基于KLUE数据集训练，专门针对韩语文本优化

模型能力

韩语文本分析

敏感信息识别

个人信息脱敏

命名实体识别

使用案例

数据隐私保护

用户数据脱敏

自动识别并标记文本中的个人信息，用于数据匿名化处理

准确识别姓名、电话、地址等敏感信息

合规检查

文档合规审查

检查文档中是否包含未脱敏的个人信息

发现文档中99%以上的敏感信息

🚀 klue-roberta-small-ner-identified

该模型是基于未知数据集对 vitus9988/klue-roberta-small-ner-identified 进行微调后的版本，可用于个人信息相关的实体识别任务，在评估集上表现出色。

🚀 快速开始

此模型是 vitus9988/klue-roberta-small-ner-identified 在未知数据集上的微调版本。它在评估集上取得了以下结果：

损失值：0.0082
精确率：0.9930
召回率：0.9988
F1值：0.9959
准确率：0.9988

✨ 主要特性

为实现个人信息脱敏，该模型提供了以下项目的实体识别：

人名 [PS]
地址（旧地址及道路名地址） [AD]
卡号 [CN]
账号 [BN]
驾驶证号 [DN]
身份证号 [RN]
护照号 [PN]
电话号码 [PH]
电子邮件地址 [EM]
日期 [DT]

📚 详细文档

训练超参数

训练过程中使用了以下超参数：

属性	详情
学习率	5e - 05
训练批次大小	64
评估批次大小	64
随机种子	42
优化器	Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型	线性
训练轮数	3

训练结果

训练损失	轮数	步数	验证损失	精确率	召回率	F1值	准确率
无记录	1.0	61	0.0128	0.9871	0.9929	0.9900	0.9979
无记录	2.0	122	0.0098	0.9895	0.9976	0.9935	0.9987
无记录	3.0	183	0.0082	0.9930	0.9988	0.9959	0.9988

框架版本

Transformers 4.40.2
Pytorch 2.3.0+cu118
Datasets 2.19.1
Tokenizers 0.19.1

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("vitus9988/klue-roberta-small-ner-identified")
model = AutoModelForTokenClassification.from_pretrained("vitus9988/klue-roberta-small-ner-identified")

nlp = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")
example = """
저는 김철수입니다. 집은 서울특별시 강남대로이고 전화번호는 010-1234-5678, 주민등록번호는 123456-1234567입니다. 메일주소는 hugging@face.com입니다. 저는 10월 25일에 출국할 예정입니다.
"""

ner_results = nlp(example)
for i in ner_results:
    print(i)

#{'entity_group': 'PS', 'score': 0.9617835, 'word': '김철수', 'start': 3, 'end': 6}
#{'entity_group': 'AD', 'score': 0.9839702, 'word': '서울특별시 강남대로', 'start': 14, 'end': 24}
#{'entity_group': 'PH', 'score': 0.9906756, 'word': '010 - 1234 - 5678', 'start': 33, 'end': 46}
#{'entity_group': 'RN', 'score': 0.9904553, 'word': '123456 - 1234567', 'start': 56, 'end': 70}
#{'entity_group': 'EM', 'score': 0.99022245, 'word': 'hugging @ face. com', 'start': 81, 'end': 97}
#{'entity_group': 'DT', 'score': 0.985629, 'word': '10월 25일', 'start': 105, 'end': 112}