数据集:
- ai4privacy/pii-masking-400k
评估指标:
- 准确率
- 召回率
- 精确率
- F1值
基础模型:
- answerdotai/ModernBERT-base
任务标签: 标记分类
标签:
- 个人身份信息
- 隐私保护
- 个人数据
- 身份识别
🐟 PII-RANHA: 隐私保护标记分类模型
概述
PII-RANHA是基于Answer.AI的ModernBERT-base微调的标记分类模型,专门用于识别和分类文本中的个人身份信息(PII)。该模型在ai4privacy/pii-masking-400k
数据集上训练,可检测17种PII类别,包括账号、信用卡号、电子邮箱等。
本模型适用于隐私保护应用场景,如数据匿名化、信息脱敏或数据保护法规合规。
模型详情
架构
- 基础模型:
answerdotai/ModernBERT-base
- 任务类型: 标记分类
- 标签数量: 18类(17种PII类别 + "O"表示非PII标记)
使用指南
安装
使用前请确保安装transformers
和datasets
库:
pip install transformers datasets
推理示例
以下演示如何加载模型进行PII检测:
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = "scampion/piiranha"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
pii_pipeline = pipeline("token-classification", model=model, tokenizer=tokenizer)
text = "我的邮箱是john.doe@example.com,电话号码是555-123-4567"
results = pii_pipeline(text)
for entity in results:
print(f"实体: {entity['word']}, 标签: {entity['entity']}, 置信度: {entity['score']:.4f}")
实体: Ġj, 标签: I-ACCOUNTNUM, 置信度: 0.6445
实体: ohn, 标签: I-ACCOUNTNUM, 置信度: 0.3657
实体: ., 标签: I-USERNAME, 置信度: 0.5871
实体: do, 标签: I-USERNAME, 置信度: 0.5350
实体: Ġ555, 标签: I-ACCOUNTNUM, 置信度: 0.8399
实体: -, 标签: I-SOCIALNUM, 置信度: 0.5948
实体: 123, 标签: I-SOCIALNUM, 置信度: 0.6309
实体: -, 标签: I-SOCIALNUM, 置信度: 0.6151
实体: 45, 标签: I-SOCIALNUM, 置信度: 0.3742
实体: 67, 标签: I-TELEPHONENUM, 置信度: 0.3440
训练详情
数据集
使用ai4privacy/pii-masking-400k数据集训练,包含40万条带PII标注的文本样本。
训练配置
- 批大小: 32
- 学习率: 5e-5
- 训练轮次: 4
- 优化器: AdamW
- 权重衰减: 0.01
- 调度器: 线性学习率调度
评估指标
采用以下指标进行评估:
轮次 |
训练损失 |
验证损失 |
精确率 |
召回率 |
F1值 |
准确率 |
1 |
0.017100 |
0.017944 |
0.897562 |
0.905612 |
0.901569 |
0.993549 |
2 |
0.011300 |
0.014114 |
0.915451 |
0.923319 |
0.919368 |
0.994782 |
3 |
0.005000 |
0.015703 |
0.919432 |
0.928394 |
0.923892 |
0.995136 |
4 |
0.001000 |
0.022899 |
0.921234 |
0.927212 |
0.924213 |
0.995267 |
需要分析这些指标的变化趋势吗?
许可协议
本模型采用Commons Clause Apache 2.0许可证,详情参见Commons Clause官网。
如需其他授权,请联系作者。
作者
姓名: 塞巴斯蒂安·坎皮恩
邮箱: sebastien.campion@foss4.eu
日期: 2025年1月30日
版本: 0.1
引用
如需在研究中引用本模型,请使用以下格式:
@misc{piiranha2025,
author = {Sébastien Campion},
title = {PII-RANHA: 隐私保护标记分类模型},
year = {2025},
version = {0.1},
url = {https://huggingface.co/sebastien-campion/piiranha},
}
免责声明
本模型按"原样"提供,不承诺任何性能保证或适用性。
部署前请务必在您的具体应用场景中评估模型表现。