distilbert_finetuned_ai4privacy_v2开源模型 - 精准检测移除文本中敏感个人信息

首页

Distilbert Finetuned Ai4privacy V2

由 Isotonic 开发

基于distilbert-base-uncased微调的PII(个人身份信息)识别模型，用于从文本中检测和移除敏感信息

序列标注

Transformers

英语#PII识别 #隐私保护 #多类别实体识别

下载量 3,499

发布时间 : 11/20/2023

模型简介

该模型在全球最大的开源隐私数据集上微调，能够识别54类敏感信息，适用于AI助手和LLM场景下的隐私保护

模型特点

广泛的PII识别能力

支持识别54种敏感数据类型，包括金融信息、身份标识、联系方式等

高效轻量级模型

基于DistilBERT架构，在保持高准确率的同时减少计算资源需求

多场景适用性

训练数据涵盖229个讨论主题和5种交互风格，适用于多种文本场景

模型能力

文本中的敏感信息检测

个人身份信息识别

隐私数据分类

多类别实体识别

使用案例

隐私保护

AI聊天记录脱敏

自动识别并屏蔽聊天记录中的敏感信息

F1分数达0.9549

文档隐私审查

扫描文档中的个人身份信息以符合GDPR等隐私法规

电子邮件识别F1分数1.0

数据安全

日志匿名化处理

自动移除系统日志中的敏感数据

IP地址识别F1分数0.4349

🚀 distilbert_finetuned_ai4privacy_v2

本模型是基于distilbert-base-uncased在ai4privacy/pii-masking-200k数据集的英文子集上进行微调的版本。它能够从文本中移除个人身份信息（PII），尤其适用于AI助手和大语言模型场景。

🌟 请作者喝咖啡是直接支持本项目的方式。

🚀 快速开始

GitHub实现：Ai4Privacy

✨ 主要特性

微调于大规模隐私数据集：该模型在全球最大的开源隐私数据集上进行了微调。
多场景PII移除：旨在从文本中移除个人身份信息（PII），尤其适用于AI助手和大语言模型。
丰富的PII类别：示例文本包含54种PII类别（敏感数据类型），涵盖商业、教育、心理学和法律等领域的229个讨论主题/用例，以及5种交互风格（如随意对话、正式文档、电子邮件等）。

📚 详细文档

模型描述

本模型在全球最大的开源隐私数据集上进行了微调。训练该模型的目的是从文本中移除个人身份信息（PII），特别是在AI助手和大语言模型的应用场景中。示例文本包含54种PII类别（敏感数据类型），针对商业、教育、心理学和法律领域的229个讨论主题/用例，以及5种交互风格（如随意对话、正式文档、电子邮件等）。具体研究可查看GitHub实现。

预期用途与限制

更多信息待补充。

训练和评估数据

更多信息待补充。

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）：5e-05
训练批次大小（train_batch_size）：8
评估批次大小（eval_batch_size）：8
随机种子（seed）：42
优化器（optimizer）：Adam，β值为(0.9, 0.999)，ε值为1e-08
学习率调度器类型（lr_scheduler_type）：cosine_with_restarts
学习率调度器预热比例（lr_scheduler_warmup_ratio）：0.2
训练轮数（num_epochs）：5

各类别指标

该模型在评估集上取得了以下结果：

损失（Loss）：0.0451
整体精确率（Overall Precision）：0.9438
整体召回率（Overall Recall）：0.9663
整体F1值（Overall F1）：0.9549
整体准确率（Overall Accuracy）：0.9838

PII类别	F1值
Accountname	0.9946
Accountnumber	0.9940
Age	0.9624
Amount	0.9643
Bic	0.9929
Bitcoinaddress	0.9948
Buildingnumber	0.9845
City	0.9955
Companyname	0.9962
County	0.9877
Creditcardcvv	0.9643
Creditcardissuer	0.9953
Creditcardnumber	0.9793
Currency	0.7811
Currencycode	0.8850
Currencyname	0.2281
Currencysymbol	0.9562
Date	0.9061
Dob	0.7914
Email	1.0
Ethereumaddress	1.0
Eyecolor	0.9837
Firstname	0.9846
Gender	0.9971
Height	0.9910
Iban	0.9906
Ip	0.4349
Ipv4	0.8126
Ipv6	0.7679
Jobarea	0.9880
Jobtitle	0.9991
Jobtype	0.9777
Lastname	0.9684
Litecoinaddress	0.9721
Mac	1.0
Maskednumber	0.9635
Middlename	0.9330
Nearbygpscoordinate	1.0
Ordinaldirection	0.9910
Password	1.0
Phoneimei	0.9918
Phonenumber	0.9962
Pin	0.9477
Prefix	0.9546
Secondaryaddress	0.9892
Sex	0.9876
Ssn	0.9976
State	0.9893
Street	0.9873
Time	0.9889
Url	1.0
Useragent	0.9953
Username	0.9975
Vehiclevin	1.0
Vehiclevrm	1.0
Zipcode	0.9873

训练结果

| 训练损失 | 轮数 | 步数 | 验证损失 | 整体精确率 | 整体召回率 | 整体F1值 | 整体准确率 | Accountname F1 | Accountnumber F1 | Age F1 | Amount F1 | Bic F1 | Bitcoinaddress F1 | Buildingnumber F1 | City F1 | Companyname F1 | County F1 | Creditcardcvv F1 | Creditcardissuer F1 | Creditcardnumber F1 | Currency F1 | Currencycode F1 | Currencyname F1 | Currencysymbol F1 | Date F1 | Dob F1 | Email F1 | Ethereumaddress F1 | Eyecolor F1 | Firstname F1 | Gender F1 | Height F1 | Iban F1 | Ip F1 | Ipv4 F1 | Ipv6 F1 | Jobarea F1 | Jobtitle F1 | Jobtype F1 | Lastname F1 | Litecoinaddress F1 | Mac F1 | Maskednumber F1 | Middlename F1 | Nearbygpscoordinate F1 | Ordinaldirection F1 | Password F1 | Phoneimei F1 | Phonenumber F1 | Pin F1 | Prefix F1 | Secondaryaddress F1 | Sex F1 | Ssn F1 | State F1 | Street F1 | Time F1 | Url F1 | Useragent F1 | Username F1 | Vehiclevin F1 | Vehiclevrm F1 | Zipcode F1 | | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | | 0.6445 | 1.0 | 1088 | 0.3322 | 0.6449 | 0.7003 | 0.6714 | 0.8900 | 0.7607 | 0.8733 | 0.6576 | 0.1766 | 0.25 | 0.6783 | 0.3621 | 0.6005 | 0.6909 | 0.5586 | 0.0 | 0.2449 | 0.7095 | 0.2889 | 0.0 | 0.0 | 0.3902 | 0.7720 | 0.0 | 0.9862 | 0.8011 | 0.5088 | 0.7740 | 0.7118 | 0.5434 | 0.8088 | 0.0 | 0.8303 | 0.7562 | 0.5318 | 0.7294 | 0.4681 | 0.6779 | 0.0 | 0.8909 | 0.0 | 0.0107 | 0.9985 | 0.4000 | 0.7307 | 0.9057 | 0.8618 | 0.0 | 0.9127 | 0.8235 | 0.9211 | 0.8026 | 0.4656 | 0.6390 | 0.9383 | 0.9775 | 0.8868 | 0.8201 | 0.4526 | 0.0550 | 0.5368 | | 0.222 | 2.0 | 2176 | 0.1259 | 0.8170 | 0.8747 | 0.8449 | 0.9478 | 0.9708 | 0.9813 | 0.7638 | 0.7427 | 0.7837 | 0.8908 | 0.8833 | 0.8747 | 0.9814 | 0.8749 | 0.7601 | 0.9777 | 0.8834 | 0.5372 | 0.4828 | 0.0056 | 0.7785 | 0.8149 | 0.3140 | 0.9956 | 0.9935 | 0.9101 | 0.9270 | 0.9450 | 0.9853 | 0.9253 | 0.0650 | 0.0084 | 0.7962 | 0.9013 | 0.9446 | 0.9203 | 0.8555 | 0.6885 | 1.0 | 0.7152 | 0.6442 | 1.0 | 0.9623 | 0.9349 | 0.9905 | 0.9782 | 0.7656 | 0.9324 | 0.9903 | 0.9736 | 0.9274 | 0.8520 | 0.9138 | 0.9678 | 0.9922 | 0.9893 | 0.9804 | 0.9646 | 0.8556 | 0.8385 | | 0.1331 | 3.0 | 3264 | 0.0773 | 0.9133 | 0.9371 | 0.9250 | 0.9654 | 0.9822 | 0.9815 | 0.9196 | 0.8852 | 0.9718 | 0.9785 | 0.9215 | 0.9757 | 0.9935 | 0.9651 | 0.8742 | 0.9921 | 0.9438 | 0.7568 | 0.7710 | 0.0 | 0.8998 | 0.7895 | 0.6578 | 0.9994 | 1.0 | 0.9554 | 0.9525 | 0.9823 | 0.9910 | 0.9866 | 0.0435 | 0.8293 | 0.7824 | 0.9671 | 0.9794 | 0.9571 | 0.9447 | 0.9141 | 1.0 | 0.8825 | 0.7988 | 1.0 | 0.9797 | 0.9921 | 0.9932 | 0.9943 | 0.8726 | 0.9401 | 0.9860 | 0.9792 | 0.9928 | 0.9740 | 0.9604 | 0.9730 | 0.9983 | 0.9964 | 0.9959 | 0.9890 | 0.9774 | 0.9247 | | 0.0847 | 4.0 | 4352 | 0.0503 | 0.9368 | 0.9614 | 0.9489 | 0.9789 | 0.9955 | 0.9949 | 0.9573 | 0.9480 | 0.9929 | 0.9846 | 0.9808 | 0.9927 | 0.9962 | 0.9811 | 0.9436 | 0.9953 | 0.9695 | 0.7826 | 0.8713 | 0.1653 | 0.9458 | 0.8782 | 0.7996 | 1.0 | 1.0 | 0.9809 | 0.9816 | 0.9941 | 0.9910 | 0.9906 | 0.3389 | 0.8364 | 0.7066 | 0.9862 | 1.0 | 0.9795 | 0.9637 | 0.9429 | 1.0 | 0.9438 | 0.9165 | 1.0 | 0.9864 | 1.0 | 0.9932 | 0.9962 | 0.9352 | 0.9483 | 0.9860 | 0.9866 | 0.9976 | 0.9884 | 0.9827 | 0.9881 | 1.0 | 0.9953 | 0.9975 | 0.9945 | 0.9915 | 0.9841 | | 0.0557 | 5.0 | 5440 | 0.0451 | 0.9438 | 0.9663 | 0.9549 | 0.9838 | 0.9946 | 0.9940 | 0.9624 | 0.9643 | 0.9929 | 0.9948 | 0.9845 | 0.9955 | 0.9962 | 0.9877 | 0.9643 | 0.9953 | 0.9793 | 0.7811 | 0.8850 | 0.2281 | 0.9562 | 0.9061 | 0.7914 | 1.0 | 1.0 | 0.9837 | 0.9846 | 0.9971 | 0.9910 | 0.9906 | 0.4349 | 0.8126 | 0.7679 | 0.9880 | 0.9991 | 0.9777 | 0.9684 | 0.9721 | 1.0 | 0.9635 | 0.9330 | 1.0 | 0.9910 | 1.0 | 0.9918 | 0.9962 | 0.9477 | 0.9546 | 0.9892 | 0.9876 | 0.9976 | 0.9893 | 0.9873 | 0.9889 | 1.0 | 0.9953 | 0.9975 | 1.0 | 1.0 | 0.9873 |