OpenMed-NER-GenomicDetect-SnowMed-568M开源模型 - 精准识别基因实体的生物医学工具

首页

Openmed NER GenomicDetect SnowMed 568M

由 OpenMed 开发

专为基因实体识别优化的高精度生物医学命名实体识别模型

序列标注

Transformers

英语开源协议:Apache-2.0 #基因实体识别 #生物医学NER #高精度基因组学

下载量 83.14k

发布时间 : 7/16/2025

模型简介

该模型是一款专门用于识别基因相关实体的生物医学命名实体识别模型，在临床文本、研究论文和医疗文档中表现出色。

模型特点

高精度

在生物医学实体识别任务上达到0.9976的F1分数

领域专用

专门针对基因相关实体识别优化，在GELLUS数据集上训练

生产就绪

在临床基准上验证，可直接用于生产环境

易于集成

与Hugging Face Transformers生态系统完全兼容

模型能力

基因实体识别

生物医学文本分析

临床文本挖掘

使用案例

临床研究

遗传疾病研究

从临床文献中识别与遗传疾病相关的基因

高精度识别BRCA2等致病基因

药物开发

药物靶点识别

从研究论文中提取药物作用靶点基因

准确识别CFTR等药物靶点基因

医疗记录分析

患者基因变异分析

从电子健康记录中提取患者基因变异信息

可靠识别APOE等基因变异

🚀 🧬 OpenMed-NER-GenomicDetect-SnowMed-568M

这是一款专门用于基因实体识别的模型，能够精准识别与基因相关的实体，在生物医学领域有着重要的应用价值。

🚀 快速开始

安装

pip install transformers torch

使用

from transformers import pipeline

# 加载模型和分词器
# 模型地址: https://huggingface.co/OpenMed/OpenMed-NER-GenomicDetect-SnowMed-568M
model_name = "OpenMed/OpenMed-NER-GenomicDetect-SnowMed-568M"

# 创建pipeline
medical_ner_pipeline = pipeline(
    model=model_name,
    aggregation_strategy="simple"
)

# 示例用法
text = "The BRCA2 gene is associated with hereditary breast cancer."
entities = medical_ner_pipeline(text)

print(entities)

token = entities[0]
print(text[token["start"] : token["end"]])

⚠️ 重要提示

aggregation_strategy 参数定义了如何将标记预测分组为实体。有关详细说明，请参阅 Hugging Face文档。

以下是可用策略的总结：

none：返回原始标记预测，不进行任何聚合。
simple：将具有相同实体类型的相邻标记分组（例如，B-LOC 后跟 I-LOC）。
first：对于基于单词的模型，如果一个单词内的标记具有不同的实体标签，则将第一个标记的标签分配给整个单词。
average：对于基于单词的模型，此策略对一个单词内的标记分数进行平均，并应用得分最高的标签。
max：对于基于单词的模型，将一个单词内得分最高的标记的实体标签分配给整个单词。

批量处理

为了高效处理大型数据集，请使用 batch_size 参数进行适当的批量处理：

texts = [
    "The BRCA2 gene is associated with hereditary breast cancer.",
    "Mutations in the CFTR gene cause cystic fibrosis.",
    "The APOE gene variant affects Alzheimer's disease risk.",
    "The HTT gene provides instructions for making a protein called huntingtin.",
    "Sickle cell disease is caused by a mutation in the HBB gene.",
]

# 使用优化的批量大小进行高效批量处理
# 根据您的GPU内存调整batch_size（通常为8、16、32或64）
results = medical_ner_pipeline(texts, batch_size=8)

for i, entities in enumerate(results):
    print(f"Text {i+1} entities:")
    for entity in entities:
        print(f"  - {entity['word']} ({entity['entity_group']}): {entity['score']:.4f}")

大型数据集处理

为了高效处理大型数据集：

from transformers.pipelines.pt_utils import KeyDataset
from datasets import Dataset
import pandas as pd

# 加载数据
# 从Hugging Face加载医学数据集
from datasets import load_dataset

# 加载公共医学数据集（使用子集进行测试）
medical_dataset = load_dataset("BI55/MedText", split="train[:100]")  # 加载前100个示例
data = pd.DataFrame({"text": medical_dataset["Completion"]})
dataset = Dataset.from_pandas(data)

# 根据您的硬件进行最佳批量处理
batch_size = 16  # 根据您的GPU内存调整此参数
results = []

for out in medical_ner_pipeline(KeyDataset(dataset, "text"), batch_size=batch_size):
    results.extend(out)

print(f"Processed {len(results)} texts with batching")

性能优化

批量大小指南：

CPU：从 batch_size=1 - 4 开始。
单GPU：根据GPU内存尝试 batch_size=8 - 32。
高端GPU：可以处理 batch_size=64 或更高。
监控GPU利用率，以找到适合您硬件的最佳批量大小。

内存考虑：

# 对于有限的GPU内存，使用较小的批次
medical_ner_pipeline = pipeline(
    model=model_name,
    aggregation_strategy="simple",
    device=0  # 指定GPU设备
)

# 使用节省内存的批量处理
for batch_start in range(0, len(texts), batch_size):
    batch = texts[batch_start:batch_start + batch_size]
    batch_results = medical_ner_pipeline(batch, batch_size=len(batch))
    results.extend(batch_results)

✨ 主要特性

高精度：针对生物医学实体识别进行了优化。
特定领域：在精心策划的GELLUS数据集上进行训练。
可用于生产：在临床基准上进行了验证。
易于集成：与Hugging Face Transformers生态系统兼容。

📦 安装指南

pip install transformers torch

💻 使用示例

基础用法

from transformers import pipeline

# 加载模型和分词器
# 模型地址: https://huggingface.co/OpenMed/OpenMed-NER-GenomicDetect-SnowMed-568M
model_name = "OpenMed/OpenMed-NER-GenomicDetect-SnowMed-568M"

# 创建pipeline
medical_ner_pipeline = pipeline(
    model=model_name,
    aggregation_strategy="simple"
)

# 示例用法
text = "The BRCA2 gene is associated with hereditary breast cancer."
entities = medical_ner_pipeline(text)

print(entities)

token = entities[0]
print(text[token["start"] : token["end"]])

高级用法

texts = [
    "The BRCA2 gene is associated with hereditary breast cancer.",
    "Mutations in the CFTR gene cause cystic fibrosis.",
    "The APOE gene variant affects Alzheimer's disease risk.",
    "The HTT gene provides instructions for making a protein called huntingtin.",
    "Sickle cell disease is caused by a mutation in the HBB gene.",
]

# 使用优化的批量大小进行高效批量处理
# 根据您的GPU内存调整batch_size（通常为8、16、32或64）
results = medical_ner_pipeline(texts, batch_size=8)

for i, entities in enumerate(results):
    print(f"Text {i+1} entities:")
    for entity in entities:
        print(f"  - {entity['word']} ({entity['entity_group']}): {entity['score']:.4f}")

📚 详细文档

📋 模型概述

此模型是一款经过微调的先进Transformer模型，专为基因实体识别 - 与基因相关的实体提供企业级的准确性。这个专门的模型擅长从临床文本、研究论文和医疗保健文档中识别和提取生物医学实体，支持诸如 药物相互作用检测、从患者记录中提取药物信息、不良事件监测、药物发现的文献挖掘 以及 生物医学知识图谱构建 等应用，为临床和研究应用提供了具备生产就绪可靠性的解决方案。

🏷️ 支持的实体类型

此模型可以识别和分类以下生物医学实体：

B-Cell-line-name
I-Cell-line-name

📊 数据集

Gellus语料库针对基因识别和遗传学实体，适用于基因组学和分子生物学应用。

Gellus语料库是一个生物医学命名实体识别（NER）数据集，专门为分子生物学文献中的基因识别和遗传学实体提取而设计。该语料库包含了对基因名称、基因变异和与基因组学相关实体的全面注释，这些对于基因研究和基因组学应用至关重要。该数据集支持开发用于基因提及识别、基因关联研究和基因组学文本挖掘的自动化系统。它对于识别遗传性疾病、遗传紊乱和分子遗传学研究中涉及的基因特别有价值。该语料库作为评估用于遗传学研究、个性化医疗和基因组学信息学的NER模型的基准，有助于精准医疗和遗传咨询应用的发展。

📊 性能指标

当前模型性能

F1分数：1.00
精确率：1.00
召回率：1.00
准确率：1.00

🏆 在GELLUS数据集上的比较性能

排名	模型	F1分数	精确率	召回率	准确率
🥇 1	OpenMed-NER-GenomicDetect-SnowMed-568M	0.9976	0.9977	0.9975	0.9989
🥈 2	OpenMed-NER-GenomicDetect-SuperMedical-355M	0.9970	0.9960	0.9981	0.9986
🥉 3	OpenMed-NER-GenomicDetect-BigMed-560M	0.9968	0.9967	0.9969	0.9986
4	OpenMed-NER-GenomicDetect-MultiMed-568M	0.9967	0.9974	0.9960	0.9985
5	OpenMed-NER-GenomicDetect-PubMed-109M	0.9964	0.9957	0.9970	0.9992
6	OpenMed-NER-GenomicDetect-PubMed-335M	0.9963	0.9961	0.9965	0.9991
7	OpenMed-NER-GenomicDetect-PubMed-109M	0.9951	0.9948	0.9953	0.9991
8	OpenMed-NER-GenomicDetect-BioMed-109M	0.9941	0.9934	0.9949	0.9988
9	OpenMed-NER-GenomicDetect-TinyMed-82M	0.9940	0.9997	0.9884	0.9961
10	OpenMed-NER-GenomicDetect-SuperMedical-125M	0.9934	0.9999	0.9870	0.9958