Piiranha开源标记分类模型 - 免费部署，精准识别分类文本个人身份信息

首页

Piiranha

由 scampion 开发

基于ModernBERT-base微调的标记分类模型，专门用于识别和分类文本中的个人身份信息(PII)

序列标注

Safetensors

#个人身份识别 #隐私数据检测 #BERT微调

下载量 79

发布时间 : 1/29/2025

模型简介

该模型在ai4privacy/pii-masking-400k数据集上训练，可检测17种PII类别，适用于隐私保护应用场景如数据匿名化、信息脱敏或数据保护法规合规。

模型特点

多类别PII检测

能够识别17种不同类型的个人身份信息(PII)类别

高精度识别

在验证集上达到92.1%的精确率和92.7%的召回率

隐私保护优化

专门针对隐私保护场景优化，适用于数据匿名化和脱敏处理

模型能力

文本中的个人身份信息识别

隐私数据分类

敏感信息检测

使用案例

数据隐私保护

数据匿名化处理

自动识别并标记数据集中的个人身份信息以便匿名化处理

F1值达到0.924

合规性检查

帮助企业检查数据是否符合GDPR等隐私保护法规要求

🐟 PII-RANHA：隐私保护型标记分类模型

PII-RANHA 是一款基于 Answer.AI 的 ModernBERT-base 微调的标记分类模型。它旨在识别和分类文本数据中的个人身份信息（PII）。该模型在 ai4privacy/pii-masking-400k 数据集上进行训练，能够检测 17 种不同的 PII 类别，如账号号码、信用卡号码、电子邮件地址等。

此模型适用于隐私保护应用，如数据匿名化、编辑处理或遵守数据保护法规。

🚀 快速开始

安装

要使用该模型，请确保已安装 transformers 和 datasets 库：

pip install transformers datasets

推理示例

以下是如何加载和使用该模型进行 PII 检测的示例：

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

# 加载模型和分词器
model_name = "scampion/piiranha"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

# 创建标记分类管道
pii_pipeline = pipeline("token-classification", model=model, tokenizer=tokenizer)

# 示例输入
text = "My email is john.doe@example.com and my phone number is 555-123-4567."

# 检测 PII
results = pii_pipeline(text)
for entity in results:
    print(f"Entity: {entity['word']}, Label: {entity['entity']}, Score: {entity['score']:.4f}")

Entity: Ġj, Label: I-ACCOUNTNUM, Score: 0.6445
Entity: ohn, Label: I-ACCOUNTNUM, Score: 0.3657
Entity: ., Label: I-USERNAME, Score: 0.5871
Entity: do, Label: I-USERNAME, Score: 0.5350
Entity: Ġ555, Label: I-ACCOUNTNUM, Score: 0.8399
Entity: -, Label: I-SOCIALNUM, Score: 0.5948
Entity: 123, Label: I-SOCIALNUM, Score: 0.6309
Entity: -, Label: I-SOCIALNUM, Score: 0.6151
Entity: 45, Label: I-SOCIALNUM, Score: 0.3742
Entity: 67, Label: I-TELEPHONENUM, Score: 0.3440

✨ 主要特性

基于 Answer.AI 的 ModernBERT-base 微调，专门用于识别和分类文本中的 PII 信息。
在 ai4privacy/pii-masking-400k 数据集上训练，可检测 17 种不同的 PII 类别。
适用于隐私保护相关应用，助力数据匿名化和法规合规。

📚 详细文档

模型详情

模型架构

基础模型：answerdotai/ModernBERT-base
任务：标记分类
标签数量：18（17 个 PII 类别 + “O” 表示非 PII 标记）

训练详情

数据集

该模型在 ai4privacy/pii-masking-400k 数据集上进行训练，该数据集包含 400,000 个带有 PII 标记注释的文本示例。

训练配置

批次大小：32
学习率：5e-5
训练轮数：4
优化器：AdamW
权重衰减：0.01
调度器：线性学习率调度器

评估指标

该模型使用以下指标进行评估：

精确率
召回率
F1 分数
准确率

轮数	训练损失	验证损失	精确率	召回率	F1 分数	准确率
1	0.017100	0.017944	0.897562	0.905612	0.901569	0.993549
2	0.011300	0.014114	0.915451	0.923319	0.919368	0.994782
3	0.005000	0.015703	0.919432	0.928394	0.923892	0.995136
4	0.001000	0.022899	0.921234	0.927212	0.924213	0.995267

📄 许可证

该模型遵循 Commons Clause Apache License 2.0 许可协议。更多详情，请访问 Commons Clause 网站。如需其他许可，请联系作者。

👨‍💻 作者信息

姓名：Sébastien Campion
邮箱：sebastien.campion@foss4.eu
日期：2025-01-30
版本：0.1

📖 引用方式

如果您在工作中使用了该模型，请按以下方式引用：

@misc{piiranha2025,
  author = {Sébastien Campion},
  title = {PII-RANHA: A Privacy-Preserving Token Classification Model},
  year = {2025},
  version = {0.1},
  url = {https://huggingface.co/sebastien-campion/piiranha},
}