OpenMed-NER-AnatomyDetect-PubMed-335M开源模型 - 精准识别解剖结构助力生物医学应用

首页

Openmed NER AnatomyDetect PubMed 335M

由 OpenMed 开发

专门用于解剖实体识别的模型，能够精准识别解剖结构和身体部位，为生物医学领域的应用提供有力支持。

序列标注

Transformers

英语开源协议:Apache-2.0 #解剖实体识别 #生物医学文本挖掘 #高精度NER

下载量 38.36k

发布时间 : 7/16/2025

模型简介

该模型是一款经过微调的变压器模型，旨在为解剖实体识别（解剖结构和身体部位）提供企业级精度。擅长从临床文本、研究论文和医疗保健文档中识别和提取生物医学实体。

模型特点

高精度

针对生物医学实体识别进行了优化，F1分数达到0.91。

特定领域

在精心策划的ANATOMY数据集上进行训练，专注于解剖实体识别。

可用于生产

在临床基准测试中得到验证，适合实际应用。

易于集成

与Hugging Face Transformers生态系统兼容，便于部署。

模型能力

解剖实体识别

生物医学文本处理

临床文本挖掘

使用案例

临床文本挖掘

从医疗记录中提取实体

从医疗记录中识别解剖结构和身体部位。

提高医疗记录的自动化处理效率。

生物医学研究

处理科学文献

从生物医学文献中提取解剖实体信息。

支持文献挖掘和知识图谱构建。

医疗保健分析

分析患者数据

从患者记录中提取解剖实体信息，用于临床决策支持。

提高临床决策的准确性和效率。

🚀 OpenMed-NER-AnatomyDetect-PubMed-335M

这是一款专门用于解剖实体识别的模型，能够精准识别解剖结构和身体部位，为生物医学领域的应用提供有力支持。

🚀 快速开始

安装

pip install transformers torch

使用

from transformers import pipeline

# 加载模型和分词器
# 模型地址: https://huggingface.co/OpenMed/OpenMed-NER-AnatomyDetect-PubMed-335M
model_name = "OpenMed/OpenMed-NER-AnatomyDetect-PubMed-335M"

# 创建管道
medical_ner_pipeline = pipeline(
    model=model_name,
    aggregation_strategy="simple"
)

# 示例用法
text = "The patient complained of pain in the left ventricle region."
entities = medical_ner_pipeline(text)

print(entities)

token = entities[0]
print(text[token["start"] : token["end"]])

⚠️ 重要提示

aggregation_strategy 参数定义了如何将标记预测分组为实体。有关详细解释，请参阅 Hugging Face 文档。

💡 使用建议

以下是可用策略的总结：

none：返回原始标记预测，不进行任何聚合。

simple：将具有相同实体类型的相邻标记分组（例如，B-LOC 后跟 I-LOC）。

first：对于基于单词的模型，如果一个单词内的标记具有不同的实体标签，则将第一个标记的标签分配给整个单词。

average：对于基于单词的模型，此策略对一个单词内的标记分数进行平均，并应用得分最高的标签。

max：对于基于单词的模型，将一个单词内得分最高的标记的实体标签分配给整个单词。

批量处理

为了高效处理大型数据集，请使用 batch_size 参数进行适当的批量处理：

texts = [
    "The patient complained of pain in the left ventricle region.",
    "Examination revealed inflammation of the hippocampus.",
    "The liver showed signs of fatty infiltration.",
    "An MRI of the cerebrum showed no signs of abnormalities.",
    "The procedure involved an incision near the femoral artery.",
]

# 使用优化的批量大小进行高效批量处理
# 根据您的 GPU 内存调整 batch_size（通常为 8、16、32 或 64）
results = medical_ner_pipeline(texts, batch_size=8)

for i, entities in enumerate(results):
    print(f"文本 {i+1} 的实体:")
    for entity in entities:
        print(f"  - {entity['word']} ({entity['entity_group']}): {entity['score']:.4f}")

大型数据集处理

为了高效处理大型数据集：

from transformers.pipelines.pt_utils import KeyDataset
from datasets import Dataset
import pandas as pd

# 加载数据
# 从 Hugging Face 加载医疗数据集
from datasets import load_dataset

# 加载公共医疗数据集（使用子集进行测试）
medical_dataset = load_dataset("BI55/MedText", split="train[:100]")  # 加载前 100 个示例
data = pd.DataFrame({"text": medical_dataset["Completion"]})
dataset = Dataset.from_pandas(data)

# 根据您的硬件进行最优批量处理
batch_size = 16  # 根据您的 GPU 内存调整此参数
results = []

for out in medical_ner_pipeline(KeyDataset(dataset, "text"), batch_size=batch_size):
    results.extend(out)

print(f"使用批量处理处理了 {len(results)} 条文本")

性能优化

批量大小指南：

CPU：从 batch_size=1 - 4 开始
单 GPU：根据 GPU 内存尝试 batch_size=8 - 32
高端 GPU：可以处理 batch_size=64 或更高
监控 GPU 利用率，以找到适合您硬件的最佳批量大小

内存考虑：

# 对于有限的 GPU 内存，使用较小的批量
medical_ner_pipeline = pipeline(
    model=model_name,
    aggregation_strategy="simple",
    device=0  # 指定 GPU 设备
)

# 使用节省内存的批量处理
for batch_start in range(0, len(texts), batch_size):
    batch = texts[batch_start:batch_start + batch_size]
    batch_results = medical_ner_pipeline(batch, batch_size=len(batch))
    results.extend(batch_results)

✨ 主要特性

高精度：针对生物医学实体识别进行了优化
特定领域：在精心策划的 ANATOMY 数据集上进行训练
可用于生产：在临床基准测试中得到验证
易于集成：与 Hugging Face Transformers 生态系统兼容

📦 安装指南

pip install transformers torch

💻 使用示例

基础用法

from transformers import pipeline

# 加载模型和分词器
# 模型地址: https://huggingface.co/OpenMed/OpenMed-NER-AnatomyDetect-PubMed-335M
model_name = "OpenMed/OpenMed-NER-AnatomyDetect-PubMed-335M"

# 创建管道
medical_ner_pipeline = pipeline(
    model=model_name,
    aggregation_strategy="simple"
)

# 示例用法
text = "The patient complained of pain in the left ventricle region."
entities = medical_ner_pipeline(text)

print(entities)

token = entities[0]
print(text[token["start"] : token["end"]])

高级用法

批量处理

texts = [
    "The patient complained of pain in the left ventricle region.",
    "Examination revealed inflammation of the hippocampus.",
    "The liver showed signs of fatty infiltration.",
    "An MRI of the cerebrum showed no signs of abnormalities.",
    "The procedure involved an incision near the femoral artery.",
]

# 使用优化的批量大小进行高效批量处理
# 根据您的 GPU 内存调整 batch_size（通常为 8、16、32 或 64）
results = medical_ner_pipeline(texts, batch_size=8)

for i, entities in enumerate(results):
    print(f"文本 {i+1} 的实体:")
    for entity in entities:
        print(f"  - {entity['word']} ({entity['entity_group']}): {entity['score']:.4f}")

大型数据集处理

from transformers.pipelines.pt_utils import KeyDataset
from datasets import Dataset
import pandas as pd

# 加载数据
# 从 Hugging Face 加载医疗数据集
from datasets import load_dataset

# 加载公共医疗数据集（使用子集进行测试）
medical_dataset = load_dataset("BI55/MedText", split="train[:100]")  # 加载前 100 个示例
data = pd.DataFrame({"text": medical_dataset["Completion"]})
dataset = Dataset.from_pandas(data)

# 根据您的硬件进行最优批量处理
batch_size = 16  # 根据您的 GPU 内存调整此参数
results = []

for out in medical_ner_pipeline(KeyDataset(dataset, "text"), batch_size=batch_size):
    results.extend(out)

print(f"使用批量处理处理了 {len(results)} 条文本")

性能优化

# 对于有限的 GPU 内存，使用较小的批量
medical_ner_pipeline = pipeline(
    model=model_name,
    aggregation_strategy="simple",
    device=0  # 指定 GPU 设备
)

# 使用节省内存的批量处理
for batch_start in range(0, len(texts), batch_size):
    batch = texts[batch_start:batch_start + batch_size]
    batch_results = medical_ner_pipeline(batch, batch_size=len(batch))
    results.extend(batch_results)

📚 详细文档

📋 模型概述

该模型是一款经过微调的 最先进 变压器模型，旨在为解剖实体识别（解剖结构和身体部位）提供 企业级精度。这款专业模型擅长从临床文本、研究论文和医疗保健文档中识别和提取生物医学实体，能够支持诸如 药物相互作用检测、从患者记录中提取药物信息、不良事件监测、药物发现的文献挖掘 以及 生物医学知识图谱构建 等应用，为临床和研究应用提供 可用于生产的可靠性。

🏷️ 支持的实体类型

该模型可以识别和分类以下生物医学实体：

B-Anatomy
I-Anatomy

📊 数据集

解剖学语料库专注于医学术语和医疗保健应用中的解剖实体识别。

解剖学语料库是一个专门的生物医学 NER 数据集，用于识别临床和生物医学文本中的解剖实体和医学术语。该语料库包含医学文献中提及的解剖结构、身体部位、器官和生理系统的注释。它对于开发临床 NLP 系统、医学教育工具和医疗信息学应用至关重要，因为在这些应用中，准确识别解剖实体至关重要。该数据集支持开发用于医学编码、临床决策支持以及从医疗记录和文献中提取解剖知识的自动化系统。它是训练用于医学成像、手术规划和临床文档的 NER 模型的宝贵资源。

📊 性能指标

当前模型性能

F1 分数：0.91
精确率：0.90
召回率：0.91
准确率：0.99

🏆 在 ANATOMY 数据集上的对比性能

排名	模型	F1 分数	精确率	召回率	准确率
🥇 1	OpenMed-NER-AnatomyDetect-ElectraMed-560M	0.9063	0.9083	0.9044	0.9825
🥈 2	OpenMed-NER-AnatomyDetect-PubMed-335M	0.9063	0.8995	0.9131	0.9851
🥉 3	OpenMed-NER-AnatomyDetect-SuperClinical-434M	0.9024	0.9040	0.9008	0.9836
4	OpenMed-NER-AnatomyDetect-ElectraMed-335M	0.9020	0.9024	0.9016	0.9787
5	OpenMed-NER-AnatomyDetect-MultiMed-568M	0.9012	0.8977	0.9048	0.9812
6	OpenMed-NER-AnatomyDetect-PubMed-109M	0.9004	0.8941	0.9067	0.9844
7	OpenMed-NER-AnatomyDetect-SuperMedical-355M	0.9002	0.8974	0.9029	0.9815
8	OpenMed-NER-AnatomyDetect-BigMed-560M	0.8980	0.9007	0.8954	0.9814
9	OpenMed-NER-AnatomyDetect-BioMed-335M	0.8961	0.8941	0.8982	0.9830
10	OpenMed-NER-AnatomyDetect-BioClinical-108M	0.8961	0.8960	0.8962	0.9768