Deid Bert I2b2

D

Deid Bert I2b2

由 obi 开发

该模型用于识别和移除医疗记录中的受保护健康信息(PHI/PII)，符合HIPAA隐私标准。

支持多种语言开源协议:MIT #医疗文本去标识化 #HIPAA合规处理 #BILOU序列标注

下载量 129.39k

发布时间 : 3/2/2022

模型简介

基于ClinicalBERT微调的序列标注模型，专门用于电子健康档案(EHR)的去标识化处理，可识别11类受保护健康信息实体。

模型特点

HIPAA合规

支持识别HIPAA定义的11类受保护健康信息(PHI)实体

临床语境优化

基于Bio_ClinicalBERT微调，专门针对医疗文本特性优化

上下文感知

采用前后32令牌的上下文窗口增强分句边界识别能力

模型能力

医疗实体识别

敏感信息检测

文本去标识化处理

序列标注预测

使用案例

医疗数据隐私保护

电子健康档案匿名化

在共享医疗记录前自动移除患者个人信息

F1分数等指标见性能章节

临床研究数据准备

为研究目的清理病历数据中的敏感信息

🚀 临床医疗笔记去识别模型

本项目是一个基于ClinicalBERT微调的模型，专注于医疗笔记的去识别处理，能够精准识别并处理受保护的健康信息（PHI/PII），为医疗数据的隐私保护提供有力支持。

🚀 快速开始

模型工作演示（使用模型预测对医疗笔记进行去识别）可在这个空间查看：Medical-Note-Deidentification。
关于如何使用此模型进行前向传播的步骤可参考：Forward Pass。
简要步骤如下：
- 对数据集进行句子分割（模型会将句子聚合回笔记级别）和分词。
- 使用模型的预测函数收集预测结果（即每个标记的预测）。
- 此外，模型预测结果可用于从原始笔记/文本中移除PHI。

✨ 主要特性

基于ClinicalBERT [Alsentzer et al., 2019]模型微调，专门用于医疗笔记的去识别任务。
采用序列标注（标记分类）方法，训练模型预测受保护的健康信息（PHI/PII）实体（跨度）。受保护健康信息类别列表由HIPAA提供。
标记可分类为非PHI或11种PHI类型之一。通过BILOU标记将标记预测聚合为跨度。
用于训练的PHI标签及其他详细信息可查看：Annotation Guidelines。
更多关于如何使用此模型、数据格式及其他有用信息可在GitHub仓库中找到：Robust DeID。

📦 安装指南

文档中未提及具体安装步骤，故跳过此章节。

💻 使用示例

文档中未提供代码示例，故跳过此章节。

📚 详细文档

数据集

使用I2B2 2014 [Stubbs and Uzuner, 2015]数据集训练该模型。

	I2B2（训练集 - 790条笔记）		I2B2（测试集 - 514条笔记）
	数量	百分比	数量	百分比
DATE	7502	43.69	4980	44.14
STAFF	3149	18.34	2004	17.76
HOSP	1437	8.37	875	7.76
AGE	1233	7.18	764	6.77
LOC	1206	7.02	856	7.59
PATIENT	1316	7.66	879	7.79
PHONE	317	1.85	217	1.92
ID	881	5.13	625	5.54
PATORG	124	0.72	82	0.73
EMAIL	4	0.02	1	0.01
OTHERPHI	2	0.01	0	0
TOTAL	17171	100	11283	100

训练过程

关于如何训练此模型的步骤可参考：Training。“model_name_or_path”设置为：“emilyalsentzer/Bio_ClinicalBERT”。
- 使用spacy的en_core_sci_sm句子分割器对数据集进行句子分割。
- 然后使用基于spacy的en_core_sci_sm分词器构建的自定义分词器对数据集进行分词。
- 对于每个句子，在左侧添加32个标记（来自前一个句子），在右侧添加32个标记（来自下一个句子）。
- 添加的标记不用于学习，即不对这些标记计算损失，它们用作额外的上下文。
- 每个序列最多包含128个标记（包括添加的32个标记）。较长的序列会被分割。
- 使用基于BILOU符号的标记级标签的句子分割和分词后的数据集来训练模型。
- 该模型是从预训练的RoBERTa模型微调而来。

训练细节

输入序列长度：128
批量大小：32
优化器：AdamW
学习率：4e-5
丢弃率：0.1

结果

文档中未详细描述结果内容，故跳过此章节。

🔧 技术细节

文档中关于技术细节的描述较为分散且缺乏系统性总结，未满足至少50字具体技术说明的要求，故跳过此章节。

📄 许可证

本项目采用MIT许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24