许可证: cc-by-nc-4.0
基础模型: distilbert-base-uncased
标签:
- 训练器生成
模型索引:
- 名称: distilbert_finetuned_ai4privacy_v2
结果: []
数据集:
- ai4privacy/pii-masking-200k
- Isotonic/pii-masking-200k
管道标签: 令牌分类
语言:
- 英语
指标:
- seqeval
🌟 请我喝咖啡是支持本项目最直接的方式。

distilbert_finetuned_ai4privacy_v2
该模型是基于distilbert-base-uncased在ai4privacy/pii-masking-200k数据集的英语子集上微调的版本。
使用方法
GitHub实现: Ai4Privacy
模型描述
该模型已在全球最大的开源隐私数据集上进行了微调。
训练模型的目的是从文本中移除个人身份信息(PII),特别是在AI助手和LLM的上下文中。
示例文本包含54个PII类别(敏感数据类型),针对229个讨论主题/用例,涵盖商业、教育、心理学和法律领域,以及5种交互风格(如随意对话、正式文档、电子邮件等)。
具体研究请查看GitHub实现。
预期用途与限制
需要更多信息
训练与评估数据
需要更多信息
训练超参数
训练期间使用的超参数如下:
- 学习率: 5e-05
- 训练批次大小: 8
- 评估批次大小: 8
- 随机种子: 42
- 优化器: Adam,参数为betas=(0.9,0.999)和epsilon=1e-08
- 学习率调度器类型: cosine_with_restarts
- 学习率预热比例: 0.2
- 训练轮数: 5
分类指标
在评估集上达到以下结果:
-
损失: 0.0451
-
总体精确率: 0.9438
-
总体召回率: 0.9663
-
总体F1分数: 0.9549
-
总体准确率: 0.9838
-
账户名F1: 0.9946
-
账号F1: 0.9940
-
年龄F1: 0.9624
-
金额F1: 0.9643
-
BIC码F1: 0.9929
-
比特币地址F1: 0.9948
-
建筑编号F1: 0.9845
-
城市F1: 0.9955
-
公司名F1: 0.9962
-
县F1: 0.9877
-
信用卡CVV码F1: 0.9643
-
信用卡发行方F1: 0.9953
-
信用卡号F1: 0.9793
-
货币F1: 0.7811
-
货币代码F1: 0.8850
-
货币名称F1: 0.2281
-
货币符号F1: 0.9562
-
日期F1: 0.9061
-
出生日期F1: 0.7914
-
电子邮件F1: 1.0
-
以太坊地址F1: 1.0
-
眼睛颜色F1: 0.9837
-
名F1: 0.9846
-
性别F1: 0.9971
-
身高F1: 0.9910
-
IBAN码F1: 0.9906
-
IP地址F1: 0.4349
-
IPv4地址F1: 0.8126
-
IPv6地址F1: 0.7679
-
工作领域F1: 0.9880
-
职位F1: 0.9991
-
工作类型F1: 0.9777
-
姓氏F1: 0.9684
-
莱特币地址F1: 0.9721
-
MAC地址F1: 1.0
-
掩码号码F1: 0.9635
-
中间名F1: 0.9330
-
附近GPS坐标F1: 1.0
-
方位F1: 0.9910
-
密码F1: 1.0
-
手机IMEI码F1: 0.9918
-
电话号码F1: 0.9962
-
PIN码F1: 0.9477
-
前缀F1: 0.9546
-
次要地址F1: 0.9892
-
性别F1: 0.9876
-
社保号F1: 0.9976
-
州F1: 0.9893
-
街道F1: 0.9873
-
时间F1: 0.9889
-
网址F1: 1.0
-
用户代理F1: 0.9953
-
用户名F1: 0.9975
-
车辆VIN码F1: 1.0
-
车辆VRM码F1: 1.0
-
邮政编码F1: 0.9873
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
总体精确率 |
总体召回率 |
总体F1 |
总体准确率 |
账户名F1 |
账号F1 |
年龄F1 |
金额F1 |
BIC码F1 |
比特币地址F1 |
建筑编号F1 |
城市F1 |
公司名F1 |
县F1 |
信用卡CVV码F1 |
信用卡发行方F1 |
信用卡号F1 |
货币F1 |
货币代码F1 |
货币名称F1 |
货币符号F1 |
日期F1 |
出生日期F1 |
电子邮件F1 |
以太坊地址F1 |
眼睛颜色F1 |
名F1 |
性别F1 |
身高F1 |
IBAN码F1 |
IP地址F1 |
IPv4地址F1 |
IPv6地址F1 |
工作领域F1 |
职位F1 |
工作类型F1 |
姓氏F1 |
莱特币地址F1 |
MAC地址F1 |
掩码号码F1 |
中间名F1 |
附近GPS坐标F1 |
方位F1 |
密码F1 |
手机IMEI码F1 |
电话号码F1 |
PIN码F1 |
前缀F1 |
次要地址F1 |
性别F1 |
社保号F1 |
州F1 |
街道F1 |
时间F1 |
网址F1 |
用户代理F1 |
用户名F1 |
车辆VIN码F1 |
车辆VRM码F1 |
邮政编码F1 |
0.6445 |
1.0 |
1088 |
0.3322 |
0.6449 |
0.7003 |
0.6714 |
0.8900 |
0.7607 |
0.8733 |
0.6576 |
0.1766 |
0.25 |
0.6783 |
0.3621 |
0.6005 |
0.6909 |
0.5586 |
0.0 |
0.2449 |
0.7095 |
0.2889 |
0.0 |
0.0 |
0.3902 |
0.7720 |
0.0 |
0.9862 |
0.8011 |
0.5088 |
0.7740 |
0.7118 |
0.5434 |
0.8088 |
0.0 |
0.8303 |
0.7562 |
0.5318 |
0.7294 |
0.4681 |
0.6779 |
0.0 |
0.8909 |
0.0 |
0.0107 |
0.9985 |
0.4000 |
0.7307 |
0.9057 |
0.8618 |
0.0 |
0.9127 |
0.8235 |
0.9211 |
0.8026 |
0.4656 |
0.6390 |
0.9383 |
0.9775 |
0.8868 |
0.8201 |
0.4526 |
0.0550 |
0.5368 |
0.222 |
2.0 |
2176 |
0.1259 |
0.8170 |
0.8747 |
0.8449 |
0.9478 |
0.9708 |
0.9813 |
0.7638 |
0.7427 |
0.7837 |
0.8908 |
0.8833 |
0.8747 |
0.9814 |
0.8749 |
0.7601 |
0.9777 |
0.8834 |
0.5372 |
0.4828 |
0.0056 |
0.7785 |
0.8149 |
0.3140 |
0.9956 |
0.9935 |
0.9101 |
0.9270 |
0.9450 |
0.9853 |
0.9253 |
0.0650 |
0.0084 |
0.7962 |
0.9013 |
0.9446 |
0.9203 |
0.8555 |
0.6885 |
1.0 |
0.7152 |
0.6442 |
1.0 |
0.9623 |
0.9349 |
0.9905 |
0.9782 |
0.7656 |
0.9324 |
0.9903 |
0.9736 |
0.9274 |
0.8520 |
0.9138 |
0.9678 |
0.9922 |
0.9893 |
0.9804 |
0.9646 |
0.8556 |
0.8385 |
0.1331 |
3.0 |
3264 |
0.0773 |
0.9133 |
0.9371 |
0.9250 |
0.9654 |
0.9822 |
0.9815 |
0.9196 |
0.8852 |
0.9718 |
0.9785 |
0.9215 |
0.9757 |
0.9935 |
0.9651 |
0.8742 |
0.9921 |
0.9438 |
0.7568 |
0.7710 |
0.0 |
0.8998 |
0.7895 |
0.6578 |
0.9994 |
1.0 |
0.9554 |
0.9525 |
0.9823 |
0.9910 |
0.9866 |
0.0435 |
0.8293 |
0.7824 |
0.9671 |
0.9794 |
0.9571 |
0.9447 |
0.9141 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|