S

Starpii

由 bigcode 开发
用于检测代码数据集中个人可识别信息(PII)的NER模型,支持识别姓名、电子邮件、密钥、密码、IP地址和用户名等6类PII
下载量 2,484
发布时间 : 4/23/2023
模型介绍
内容详情
替代品

模型简介

该模型基于bigcode-encoder微调,专门用于从代码数据中识别和移除个人可识别信息(PII),支持多种编程语言

模型特点

伪标签增强训练
先在伪标记数据集上预训练,再在标注数据上微调,显著提升了密钥等罕见PII实体的识别性能
多类别PII检测
可识别6类PII:姓名、电子邮件、密钥、密码、IP地址和用户名
智能后处理
包含多种后处理规则,如忽略短密钥、非全名、无效IP等,减少误报
多编程语言支持
基于88种编程语言预训练的编码器,在31种语言的PII数据上微调

模型能力

代码中的PII检测
多类别实体识别
跨语言PII识别

使用案例

数据隐私保护
代码库PII清理
在训练AI模型前清理代码库中的敏感信息
有效识别并移除代码中的PII,降低数据泄露风险
开源项目审核
检查开源代码是否包含敏感信息
帮助开发者发现并移除意外提交的PII