许可证:apache-2.0
基础模型:distilbert-base-multilingual-cased
标签:
- generated_from_trainer
指标:
- 精确度
- 召回率
- F1值
- 准确率
模型索引:
- 名称:distilbert-base-multilingual-cased-pii
结果:[]
数据集:
- ai4privacy/pii-masking-300k
管道标签:token-classification
示例输入:
- 文本:"我的名字是Yoni Go,我住在以色列。我的电话号码是054-1234567"
推理参数:
聚合策略:"first"
使用方法:
from transformers import pipeline
pipe = pipeline("token-classification", model="yonigo/distilbert-base-multilingual-cased-pii", aggregation_strategy="first")
pipe("我的名字是Yoni Go,我住在以色列。我的电话号码是054-1234567")
训练代码Git仓库
distilbert-base-multilingual-cased-pii
本模型是基于distilbert-base-multilingual-cased在ai4privacy/pii-masking-300k数据集上微调的版本。
在评估集上达到以下结果:
- 损失:0.0470
- Bod F1:0.9642
- Building F1:0.9789
- Cardissuer F1:0.9697
- City F1:0.9566
- Country F1:0.9737
- Date F1:0.9264
- Driverlicense F1:0.9633
- Email F1:0.9833
- Geocoord F1:0.9654
- Givenname1 F1:0.8653
- Givenname2 F1:0.8170
- Idcard F1:0.9390
- Ip F1:0.9842
- Lastname1 F1:0.8495
- Lastname2 F1:0.7609
- Lastname3 F1:0.7281
- Pass F1:0.9247
- Passport F1:0.9540
- Postcode F1:0.9808
- Secaddress F1:0.9732
- Sex F1:0.9700
- Socialnumber F1:0.9689
- State F1:0.9761
- Street F1:0.9609
- Tel F1:0.9777
- Time F1:0.9701
- Title F1:0.9572
- Username F1:0.9594
- 精确度:0.9428
- 召回率:0.9582
- F1值:0.9504
- 准确率:0.9909
训练结果
训练损失 |
周期 |
步数 |
验证损失 |
Bod F1 |
Building F1 |
Cardissuer F1 |
City F1 |
Country F1 |
Date F1 |
Driverlicense F1 |
Email F1 |
Geocoord F1 |
Givenname1 F1 |
Givenname2 F1 |
Idcard F1 |
Ip F1 |
Lastname1 F1 |
Lastname2 F1 |
Lastname3 F1 |
Pass F1 |
Passport F1 |
Postcode F1 |
Secaddress F1 |
Sex F1 |
Socialnumber F1 |
State F1 |
Street F1 |
Tel F1 |
Time F1 |
Title F1 |
Username F1 |
精确度 |
召回率 |
F1 |
准确率 |
0.2604 |
0.3601 |
1000 |
0.1439 |
0.8486 |
0.8928 |
0.0 |
0.6347 |
0.7409 |
0.6650 |
0.4865 |
0.9454 |
0.8685 |
0.4884 |
0.0 |
0.4298 |
0.9051 |
0.4869 |
0.0 |
0.0 |
0.6948 |
0.5073 |
0.7842 |
0.4352 |
0.6765 |
0.7223 |
0.7680 |
0.6802 |
0.8438 |
0.9211 |
0.5403 |
0.8180 |
0.6715 |
0.7248 |
0.6971 |
0.9663 |
0.0866 |
0.7202 |
2000 |
0.0707 |
0.9385 |
0.9611 |
0.0 |
0.9027 |
0.9564 |
0.8655 |
0.8200 |
0.9750 |
0.9546 |
0.7057 |
0.2081 |
0.8231 |
0.9689 |
0.6300 |
0.1133 |
0.0 |
0.8483 |
0.8467 |
0.9453 |
0.9564 |
0.9319 |
0.8831 |
0.9450 |
0.9101 |
0.9487 |
0.9529 |
0.8716 |
0.9285 |
0.8700 |
0.8839 |
0.8769 |
0.9839 |
...(后续数据省略) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
框架版本
- Transformers 4.41.2
- Pytorch 2.3.1+cu121
- Datasets 2.20.0
- Tokenizers 0.19.1