OpenMed-NER-DiseaseDetect-SuperMedical-355M开源模型

首页

Openmed NER DiseaseDetect SuperMedical 355M

由 OpenMed 开发

专门用于疾病实体识别的模型，能够精准识别来自BC5CDR数据集中的疾病实体。

序列标注

Transformers

英语开源协议:Apache-2.0 #疾病实体识别 #生物医学文本处理 #高精度NER

下载量 83.07k

发布时间 : 7/18/2025

模型简介

该模型是一款经过微调的最先进的Transformer模型，旨在为疾病实体识别提供企业级的准确性，可识别来自bc5cdr数据集中的疾病实体。

模型特点

高精度

针对生物医学实体识别进行了优化，具有高精度的识别能力。

特定领域

在精心策划的BC5CDR_DISEASE数据集上进行训练，专注于疾病实体识别。

可用于生产

在临床基准测试中得到验证，适合实际生产环境使用。

易于集成

与Hugging Face Transformers生态系统兼容，便于集成到现有系统中。

模型能力

疾病实体识别

生物医学文本处理

临床文本挖掘

使用案例

临床文本挖掘

从医疗记录中提取疾病实体

从电子健康记录中自动识别和提取疾病名称。

提高医疗记录的自动化处理效率。

生物医学研究

处理科学文献

从生物医学研究论文中提取疾病实体，支持文献挖掘。

加速生物医学研究的文献分析过程。

医疗保健分析

分析患者数据

从患者数据中识别疾病实体，支持医疗保健分析。

提高患者数据分析的准确性和效率。

🚀 OpenMed-NER-DiseaseDetect-SuperMedical-355M

这是一款专门用于疾病实体识别的模型，能够精准识别来自BC5CDR数据集中的疾病实体。

🚀 快速开始

安装

pip install transformers torch

使用

from transformers import pipeline

# 加载模型和分词器
# 模型地址: https://huggingface.co/OpenMed/OpenMed-NER-DiseaseDetect-SuperMedical-355M
model_name = "OpenMed/OpenMed-NER-DiseaseDetect-SuperMedical-355M"

# 创建管道
medical_ner_pipeline = pipeline(
    model=model_name,
    aggregation_strategy="simple"
)

# 使用示例
text = "The patient was diagnosed with diabetes mellitus type 2."
entities = medical_ner_pipeline(text)

print(entities)

token = entities[0]
print(text[token["start"] : token["end"]])

⚠️ 重要提示

aggregation_strategy 参数定义了如何将标记预测分组为实体。有关详细说明，请参阅 Hugging Face文档。

以下是可用策略的总结：

none：返回原始标记预测，不进行任何聚合。
simple：将具有相同实体类型的相邻标记分组（例如，B-LOC 后跟 I-LOC）。
first：对于基于单词的模型，如果一个单词内的标记具有不同的实体标签，则将第一个标记的标签分配给整个单词。
average：对于基于单词的模型，此策略对一个单词内的标记分数进行平均，并应用得分最高的标签。
max：对于基于单词的模型，将一个单词内得分最高的标记的实体标签分配给整个单词。

批量处理

为了高效处理大型数据集，请使用 batch_size 参数进行适当的批处理：

texts = [
    "The patient was diagnosed with diabetes mellitus type 2.",
    "Symptoms of Alzheimer's disease became apparent over several months.",
    "Treatment for hypertension was initiated immediately.",
    "A possible link between Crohn's disease and gut microbiota is being investigated.",
    "The patient has a family history of cystic fibrosis.",
]

# 使用优化的批量大小进行高效批量处理
# 根据您的GPU内存调整batch_size（通常为8、16、32或64）
results = medical_ner_pipeline(texts, batch_size=8)

for i, entities in enumerate(results):
    print(f"文本 {i+1} 的实体:")
    for entity in entities:
        print(f"  - {entity['word']} ({entity['entity_group']}): {entity['score']:.4f}")

大型数据集处理

为了高效处理大型数据集：

from transformers.pipelines.pt_utils import KeyDataset
from datasets import Dataset
import pandas as pd

# 加载数据
# 从Hugging Face加载医疗数据集
from datasets import load_dataset

# 加载公共医疗数据集（使用子集进行测试）
medical_dataset = load_dataset("BI55/MedText", split="train[:100]")  # 加载前100个示例
data = pd.DataFrame({"text": medical_dataset["Completion"]})
dataset = Dataset.from_pandas(data)

# 根据您的硬件进行最佳批量处理
batch_size = 16  # 根据您的GPU内存调整此值
results = []

for out in medical_ner_pipeline(KeyDataset(dataset, "text"), batch_size=batch_size):
    results.extend(out)

print(f"使用批量处理处理了 {len(results)} 条文本")

性能优化

批量大小指南：

CPU：从 batch_size=1-4 开始。
单GPU：根据GPU内存尝试 batch_size=8-32。
高端GPU：可以处理 batch_size=64 或更高。
监控GPU利用率，以找到适合您硬件的最佳批量大小。

内存考虑：

# 对于有限的GPU内存，使用较小的批量
medical_ner_pipeline = pipeline(
    model=model_name,
    aggregation_strategy="simple",
    device=0  # 指定GPU设备
)

# 使用内存高效的批量处理
for batch_start in range(0, len(texts), batch_size):
    batch = texts[batch_start:batch_start + batch_size]
    batch_results = medical_ner_pipeline(batch, batch_size=len(batch))
    results.extend(batch_results)

✨ 主要特性

高精度：针对生物医学实体识别进行了优化。
特定领域：在精心策划的BC5CDR_DISEASE数据集上进行训练。
可用于生产：在临床基准测试中得到验证。
易于集成：与Hugging Face Transformers生态系统兼容。

📦 安装指南

pip install transformers torch

💻 使用示例

基础用法

from transformers import pipeline

# 加载模型和分词器
# 模型地址: https://huggingface.co/OpenMed/OpenMed-NER-DiseaseDetect-SuperMedical-355M
model_name = "OpenMed/OpenMed-NER-DiseaseDetect-SuperMedical-355M"

# 创建管道
medical_ner_pipeline = pipeline(
    model=model_name,
    aggregation_strategy="simple"
)

# 使用示例
text = "The patient was diagnosed with diabetes mellitus type 2."
entities = medical_ner_pipeline(text)

print(entities)

token = entities[0]
print(text[token["start"] : token["end"]])

高级用法

# 批量处理示例，根据GPU内存调整batch_size以提高处理效率
texts = [
    "The patient was diagnosed with diabetes mellitus type 2.",
    "Symptoms of Alzheimer's disease became apparent over several months.",
    "Treatment for hypertension was initiated immediately.",
    "A possible link between Crohn's disease and gut microbiota is being investigated.",
    "The patient has a family history of cystic fibrosis.",
]

# 使用优化的批量大小进行高效批量处理
# 根据您的GPU内存调整batch_size（通常为8、16、32或64）
results = medical_ner_pipeline(texts, batch_size=8)

for i, entities in enumerate(results):
    print(f"文本 {i+1} 的实体:")
    for entity in entities:
        print(f"  - {entity['word']} ({entity['entity_group']}): {entity['score']:.4f}")

📚 详细文档

模型概述

该模型是一款经过微调的最先进的Transformer模型，旨在为疾病实体识别提供企业级的准确性，可识别来自bc5cdr数据集中的疾病实体。这款专业模型擅长从临床文本、研究论文和医疗保健文档中识别和提取生物医学实体，能够支持诸如药物相互作用检测、从患者记录中提取药物信息、不良事件监测、药物发现的文献挖掘以及生物医学知识图谱构建等应用，并为临床和研究应用提供可用于生产的可靠性。

支持的实体类型

该模型可以识别和分类以下生物医学实体：

B-DISEASE
I-DISEASE

数据集

BC5CDR-Disease旨在从BioCreative V化学-疾病关系提取语料库中进行疾病实体识别。

BC5CDR-Disease语料库是BioCreative V化学-疾病关系（CDR）任务中专注于疾病的部分，包含1500篇PubMed摘要，其中有5818个带注释的疾病实体。这个手动策划的数据集旨在推动医学诊断、病理学研究和临床决策支持系统的自动疾病名称识别。该语料库包括对生物医学文献中提到的各种疾病类型、医疗状况和病理状态的注释。它作为评估临床和生物医学应用中命名实体识别（NER）模型的基准，在这些应用中，准确的疾病实体识别对于医学信息学和医疗保健分析至关重要。

性能指标

当前模型性能

F1分数：0.89
精确率：0.87
召回率：0.91
准确率：0.98

在BC5CDR_DISEASE数据集上的对比性能

排名	模型	F1分数	精确率	召回率	准确率
第1名	OpenMed-NER-DiseaseDetect-SuperClinical-434M	0.9118	0.9028	0.9211	0.9839
第2名	OpenMed-NER-DiseaseDetect-PubMed-335M	0.9097	0.8932	0.9268	0.9849
第3名	OpenMed-NER-DiseaseDetect-MultiMed-335M	0.9022	0.8890	0.9159	0.9758
第4名	OpenMed-NER-DiseaseDetect-BioMed-335M	0.9005	0.8887	0.9126	0.9838
第5名	OpenMed-NER-DiseaseDetect-BioClinical-108M	0.8999	0.8862	0.9140	0.9723
第6名	OpenMed-NER-DiseaseDetect-PubMed-109M	0.8994	0.8899	0.9091	0.9839
第7名	OpenMed-NER-DiseaseDetect-BioPatient-108M	0.8991	0.8864	0.9121	0.9721
第8名	OpenMed-NER-DiseaseDetect-SuperClinical-184M	0.8943	0.8687	0.9214	0.9812
第9名	OpenMed-NER-DiseaseDetect-SuperClinical-141M	0.8921	0.8686	0.9170	0.9809
第10名	OpenMed-NER-DiseaseDetect-MultiMed-568M	0.8909	0.8803	0.9017	0.9776

排名基于在该数据集上训练的所有模型的F1分数性能。

OpenMed (开源) 与最新闭源SOTA的对比

图：OpenMed（开源）与最新SOTA（闭源）在生物医学NER数据集上的性能对比。

数据集信息

属性	详情
数据集	BC5CDR_DISEASE
描述	疾病实体识别 - 来自BC5CDR数据集的疾病实体

训练详情

基础模型：roberta-large
训练框架：Hugging Face Transformers
优化方法：使用学习率调度的AdamW优化器
验证方法：在保留的测试集上进行交叉验证

模型架构

基础架构：roberta-large
任务：标记分类（命名实体识别）
标签：特定于数据集的实体类型
输入：分词后的生物医学文本
输出：BIO标签的实体预测

使用案例

该模型特别适用于以下场景：

临床文本挖掘：从医疗记录中提取实体。
生物医学研究：处理科学文献。
药物发现：识别化合物和药物。
医疗保健分析：分析患者数据和结果。
学术研究：支持生物医学自然语言处理研究。

🔧 技术细节

该模型基于Transformer架构，通过在BC5CDR_DISEASE数据集上进行微调，优化了模型参数，使其能够更好地适应疾病实体识别任务。在训练过程中，使用了AdamW优化器和学习率调度，以提高模型的收敛速度和泛化能力。同时，通过在临床基准测试中进行验证，确保了模型在实际应用中的可靠性和准确性。