OpenMed-NER-PathologyDetect-PubMed-v2-109M开源模型 - 精准识别疾病实体助力生物医学研究

首页

Openmed NER PathologyDetect PubMed V2 109M

由 OpenMed 开发

专为疾病实体识别设计的Transformer模型，能够从NCBI数据集中精准识别疾病实体，为生物医学领域的研究和临床应用提供支持。

序列标注

Transformers

英语开源协议:Apache-2.0 #高精度疾病识别 #生物医学实体抽取 #临床文本挖掘

下载量 38.37k

发布时间 : 7/16/2025

模型简介

该模型是一款经过微调的先进Transformer模型，专为疾病实体识别而设计，能够从NCBI数据集中精准识别疾病实体，达到企业级的识别准确率。

模型特点

高精度

针对生物医学实体识别进行了优化，达到企业级的识别准确率。

特定领域

在精心策划的NCBI_DISEASE数据集上进行训练，专注于疾病实体识别。

可用于生产

在临床基准测试中得到验证，适合实际应用场景。

易于集成

与Hugging Face Transformers生态系统兼容，便于部署和使用。

模型能力

疾病实体识别

生物医学文本分析

临床文本挖掘

使用案例

临床文本挖掘

从医疗记录中提取疾病信息

自动识别和提取患者记录中的疾病实体。

提高医疗记录的自动化处理效率。

生物医学研究

处理科学文献

从研究论文中提取疾病相关信息。

加速文献综述和知识发现。

医疗保健分析

分析患者数据和结果

识别和分析患者数据中的疾病模式。

支持流行病学研究和公共卫生决策。

🚀 🧬 OpenMed-NER-PathologyDetect-PubMed-109M

本项目是一个专门用于疾病实体识别的模型，能够从NCBI数据集中精准识别疾病实体，为生物医学领域的研究和临床应用提供有力支持。

📋 模型概述

该模型是一款经过微调的先进Transformer模型，专为疾病实体识别而设计，能够从NCBI数据集中精准识别疾病实体，达到企业级的识别准确率。此专业模型擅长从临床文本、研究论文和医疗保健文档中识别和提取生物医学实体，可应用于药物相互作用检测、从患者记录中提取药物信息、不良事件监测、药物发现的文献挖掘以及生物医学知识图谱构建等领域，为临床和研究应用提供可靠的支持。

✨ 主要特性

高精度：针对生物医学实体识别进行了优化。
特定领域：在精心策划的NCBI_DISEASE数据集上进行训练。
可用于生产：在临床基准测试中得到验证。
易于集成：与Hugging Face Transformers生态系统兼容。

🏷️ 支持的实体类型

该模型可以识别和分类以下生物医学实体：

B-Disease
I-Disease

📦 安装指南

pip install transformers torch

💻 使用示例

基础用法

from transformers import pipeline

# 加载模型和分词器
# 模型地址: https://huggingface.co/OpenMed/OpenMed-NER-PathologyDetect-PubMed-109M
model_name = "OpenMed/OpenMed-NER-PathologyDetect-PubMed-109M"

# 创建管道
medical_ner_pipeline = pipeline(
    model=model_name,
    aggregation_strategy="simple"
)

# 示例用法
text = "Early detection of breast cancer improves survival rates."
entities = medical_ner_pipeline(text)

print(entities)

token = entities[0]
print(text[token["start"] : token["end"]])

⚠️ 重要提示

aggregation_strategy 参数定义了如何将标记预测分组为实体。详细解释请参考 Hugging Face文档。

💡 使用建议

以下是可用策略的总结：

none：返回原始标记预测，不进行任何聚合。

simple：将具有相同实体类型的相邻标记分组（例如，B-LOC 后跟 I-LOC）。

first：对于基于单词的模型，如果一个单词内的标记具有不同的实体标签，则将第一个标记的标签分配给整个单词。

average：对于基于单词的模型，此策略对一个单词内的标记分数进行平均，并应用得分最高的标签。

max：对于基于单词的模型，将一个单词内得分最高的标记的实体标签分配给整个单词。

高级用法 - 批量处理

texts = [
    "Early detection of breast cancer improves survival rates.",
    "The patient exhibited symptoms consistent with Parkinson's disease.",
    "Genetic testing revealed predisposition to Huntington's disease.",
    "Malaria is a life-threatening disease caused by parasites transmitted through mosquito bites.",
    "Multiple sclerosis affects the central nervous system, leading to a range of symptoms.",
]

# 高效批量处理，优化批量大小
# 根据你的GPU内存调整batch_size（通常为8、16、32或64）
results = medical_ner_pipeline(texts, batch_size=8)

for i, entities in enumerate(results):
    print(f"文本 {i+1} 的实体:")
    for entity in entities:
        print(f"  - {entity['word']} ({entity['entity_group']}): {entity['score']:.4f}")

高级用法 - 大型数据集处理

from transformers.pipelines.pt_utils import KeyDataset
from datasets import Dataset
import pandas as pd

# 加载数据
# 从Hugging Face加载医疗数据集
from datasets import load_dataset

# 加载公共医疗数据集（使用子集进行测试）
medical_dataset = load_dataset("BI55/MedText", split="train[:100]")  # 加载前100个示例
data = pd.DataFrame({"text": medical_dataset["Completion"]})
dataset = Dataset.from_pandas(data)

# 根据硬件进行最佳批量处理
batch_size = 16  # 根据你的GPU内存进行调整
results = []

for out in medical_ner_pipeline(KeyDataset(dataset, "text"), batch_size=batch_size):
    results.extend(out)

print(f"使用批量处理处理了 {len(results)} 个文本")

高级用法 - 性能优化

# 对于有限的GPU内存，使用较小的批次
medical_ner_pipeline = pipeline(
    model=model_name,
    aggregation_strategy="simple",
    device=0  # 指定GPU设备
)

# 进行内存高效的批量处理
for batch_start in range(0, len(texts), batch_size):
    batch = texts[batch_start:batch_start + batch_size]
    batch_results = medical_ner_pipeline(batch, batch_size=len(batch))
    results.extend(batch_results)

💡 使用建议

批量大小指南：

CPU：从batch_size=1 - 4开始。

单GPU：根据GPU内存尝试batch_size=8 - 32。

高端GPU：可以处理batch_size=64或更高。

监控GPU利用率，以找到适合你硬件的最佳批量大小。

📚 详细文档

数据集信息

属性	详情
数据集	NCBI_DISEASE
描述	疾病实体识别 - 来自NCBI数据集的疾病实体

训练详情

基础模型：BiomedNLP-BiomedBERT-base-uncased-abstract
训练框架：Hugging Face Transformers
优化方法：使用学习率调度的AdamW优化器
验证方式：在保留的测试集上进行交叉验证

模型架构

基础架构：BiomedNLP-BiomedBERT-base-uncased-abstract
任务：标记分类（命名实体识别）
标签：特定于数据集的实体类型
输入：分词后的生物医学文本
输出：BIO标签的实体预测

用例

该模型特别适用于以下场景：

临床文本挖掘：从医疗记录中提取实体。
生物医学研究：处理科学文献。
药物发现：识别化合物和药物。
医疗保健分析：分析患者数据和结果。
学术研究：支持生物医学NLP研究。

📊 性能指标

当前模型性能

F1分数：0.91
精确率：0.89
召回率：0.93
准确率：0.98

🏆 在NCBI_DISEASE数据集上的对比性能

排名	模型	F1分数	精确率	召回率	准确率
🥇 1	OpenMed-NER-PathologyDetect-PubMed-109M	0.9110	0.8918	0.9310	0.9792
🥈 2	OpenMed-NER-PathologyDetect-PubMed-335M	0.9086	0.8913	0.9266	0.9781
🥉 3	OpenMed-NER-PathologyDetect-BioMed-335M	0.9052	0.8867	0.9244	0.9780
4	OpenMed-NER-PathologyDetect-SuperClinical-434M	0.9035	0.8772	0.9314	0.9760
5	OpenMed-NER-PathologyDetect-PubMed-109M	0.9022	0.8825	0.9227	0.9769
6	OpenMed-NER-PathologyDetect-ElectraMed-335M	0.8977	0.8884	0.9073	0.9719
7	OpenMed-NER-PathologyDetect-ElectraMed-560M	0.8950	0.8749	0.9161	0.9747
8	OpenMed-NER-PathologyDetect-MultiMed-335M	0.8903	0.8749	0.9063	0.9692
9	OpenMed-NER-PathologyDetect-SnowMed-568M	0.8903	0.8684	0.9133	0.9731
10	OpenMed-NER-PathologyDetect-SuperClinical-141M	0.8894	0.8633	0.9172	0.9744