OpenMed-NER-SpeciesDetect-BigMed-560M开源模型 - 精准识别物种名称，助力生物医学研究

首页

Openmed NER SpeciesDetect BigMed 560M

由 OpenMed 开发

专门用于物种实体识别的模型，能够精准识别物种和生物体名称，在生物医学领域有着重要的应用价值。

序列标注

Transformers

英语开源协议:Apache-2.0 #生物医学实体识别 #高精度物种检测 #临床文本挖掘

下载量 38.34k

发布时间 : 7/18/2025

模型简介

该模型是一款经过微调的最先进的Transformer模型，旨在为物种实体识别（物种和生物体名称）提供企业级的准确性。

模型特点

高精度

针对生物医学实体识别进行了优化，在临床基准上进行了验证。

特定领域

在精心策划的LINNAEUS数据集上进行训练，专注于生物医学领域。

可用于生产

为临床和研究应用提供了具备生产就绪可靠性的解决方案。

易于集成

与Hugging Face Transformers生态系统兼容。

模型能力

识别物种名称

识别生物体名称

生物医学文本分析

使用案例

临床文本挖掘

从医疗记录中提取实体

从医疗记录中识别和提取物种和生物体名称。

生物医学研究

处理科学文献

从科学文献中识别和分类物种名称。

药物发现

医疗保健分析

学术研究

🚀 OpenMed-NER-SpeciesDetect-BigMed-560M

这是一款专门用于物种实体识别的模型，能够精准识别物种和生物体名称，在生物医学领域有着重要的应用价值。

🚀 快速开始

安装

pip install transformers torch

使用

from transformers import pipeline

# 加载模型和分词器
# 模型地址: https://huggingface.co/OpenMed/OpenMed-NER-SpeciesDetect-BigMed-560M
model_name = "OpenMed/OpenMed-NER-SpeciesDetect-BigMed-560M"

# 创建管道
medical_ner_pipeline = pipeline(
    model=model_name,
    aggregation_strategy="simple"
)

# 示例用法
text = "Escherichia coli bacteria were found in the water samples."
entities = medical_ner_pipeline(text)

print(entities)

token = entities[0]
print(text[token["start"] : token["end"]])

⚠️ 重要提示

aggregation_strategy 参数定义了如何将标记预测分组为实体。详细解释请参考 Hugging Face文档。

以下是可用策略的总结：

none：返回原始标记预测，不进行任何聚合。
simple：将具有相同实体类型的相邻标记分组（例如，B-LOC 后跟 I-LOC）。
first：对于基于单词的模型，如果一个单词内的标记具有不同的实体标签，则将第一个标记的标签分配给整个单词。
average：对于基于单词的模型，此策略对一个单词内的标记分数进行平均，并应用得分最高的标签。
max：对于基于单词的模型，将一个单词内得分最高的标记的实体标签分配给整个单词。

批量处理

为了高效处理大型数据集，请使用 batch_size 参数进行适当的批量处理：

texts = [
    "Escherichia coli bacteria were found in the water samples.",
    "The study included specimens from Homo sapiens and Mus musculus.",
    "Saccharomyces cerevisiae is commonly used in biotechnology applications.",
    "The venom of the black mamba, Dendroaspis polylepis, is highly neurotoxic.",
    "Canis lupus familiaris has been domesticated for thousands of years.",
]

# 使用优化的批量大小进行高效批量处理
# 根据你的GPU内存调整batch_size（通常为8、16、32或64）
results = medical_ner_pipeline(texts, batch_size=8)

for i, entities in enumerate(results):
    print(f"文本 {i+1} 的实体:")
    for entity in entities:
        print(f"  - {entity['word']} ({entity['entity_group']}): {entity['score']:.4f}")

大型数据集处理

为了高效处理大型数据集：

from transformers.pipelines.pt_utils import KeyDataset
from datasets import Dataset
import pandas as pd

# 加载数据
# 从Hugging Face加载医疗数据集
from datasets import load_dataset

# 加载公共医疗数据集（使用子集进行测试）
medical_dataset = load_dataset("BI55/MedText", split="train[:100]")  # 加载前100个示例
data = pd.DataFrame({"text": medical_dataset["Completion"]})
dataset = Dataset.from_pandas(data)

# 使用适合你硬件的最佳批量处理
batch_size = 16  # 根据你的GPU内存进行调整
results = []

for out in medical_ner_pipeline(KeyDataset(dataset, "text"), batch_size=batch_size):
    results.extend(out)

print(f"使用批量处理处理了 {len(results)} 个文本")

性能优化

批量大小指南：

CPU：从 batch_size=1 - 4 开始
单GPU：根据GPU内存尝试 batch_size=8 - 32
高端GPU：可以处理 batch_size=64 或更高
监控GPU利用率，为你的硬件找到最佳批量大小

内存考虑：

# 对于有限的GPU内存，使用较小的批量
medical_ner_pipeline = pipeline(
    model=model_name,
    aggregation_strategy="simple",
    device=0  # 指定GPU设备
)

# 使用内存高效的批量处理
for batch_start in range(0, len(texts), batch_size):
    batch = texts[batch_start:batch_start + batch_size]
    batch_results = medical_ner_pipeline(batch, batch_size=len(batch))
    results.extend(batch_results)

✨ 主要特性

高精度：针对生物医学实体识别进行了优化。
特定领域：在精心策划的LINNAEUS数据集上进行训练。
可用于生产：在临床基准上进行了验证。
易于集成：与Hugging Face Transformers生态系统兼容。

📦 安装指南

pip install transformers torch

💻 使用示例

基础用法

from transformers import pipeline

# 加载模型和分词器
# 模型地址: https://huggingface.co/OpenMed/OpenMed-NER-SpeciesDetect-BigMed-560M
model_name = "OpenMed/OpenMed-NER-SpeciesDetect-BigMed-560M"

# 创建管道
medical_ner_pipeline = pipeline(
    model=model_name,
    aggregation_strategy="simple"
)

# 示例用法
text = "Escherichia coli bacteria were found in the water samples."
entities = medical_ner_pipeline(text)

print(entities)

token = entities[0]
print(text[token["start"] : token["end"]])

高级用法

from transformers.pipelines.pt_utils import KeyDataset
from datasets import Dataset
import pandas as pd

# 加载数据
# 从Hugging Face加载医疗数据集
from datasets import load_dataset

# 加载公共医疗数据集（使用子集进行测试）
medical_dataset = load_dataset("BI55/MedText", split="train[:100]")  # 加载前100个示例
data = pd.DataFrame({"text": medical_dataset["Completion"]})
dataset = Dataset.from_pandas(data)

# 使用适合你硬件的最佳批量处理
batch_size = 16  # 根据你的GPU内存进行调整
results = []

for out in medical_ner_pipeline(KeyDataset(dataset, "text"), batch_size=batch_size):
    results.extend(out)

print(f"使用批量处理处理了 {len(results)} 个文本")

📚 详细文档

模型概述

该模型是一款经过微调的最先进的Transformer模型，旨在为物种实体识别（物种和生物体名称）提供企业级的准确性。这个专门的模型擅长从临床文本、研究论文和医疗保健文档中识别和提取生物医学实体，支持诸如药物相互作用检测、从患者记录中提取药物信息、不良事件监测、药物发现的文献挖掘以及生物医学知识图谱构建等应用，为临床和研究应用提供了具备生产就绪可靠性的解决方案。

支持的实体类型

该模型可以识别和分类以下生物医学实体：

B-SPECIES
I-SPECIES

数据集信息

数据集：LINNAEUS
描述：物种实体识别 - 物种和生物体名称

训练详情

基础模型：xlm-roberta-large
训练框架：Hugging Face Transformers
优化：使用学习率调度的AdamW优化器
验证：在保留的测试集上进行交叉验证

模型架构

基础架构：xlm-roberta-large
任务：标记分类（命名实体识别）
标签：特定于数据集的实体类型
输入：经过分词的生物医学文本
输出：BIO标签的实体预测

使用案例

该模型特别适用于以下场景：

临床文本挖掘：从医疗记录中提取实体。
生物医学研究：处理科学文献。
药物发现：识别化合物和药物。
医疗保健分析：分析患者数据和结果。
学术研究：支持生物医学NLP研究。

🔧 技术细节

数据集

Linnaeus语料库专为生物医学文献中的物种名称识别和分类实体识别而设计。

Linnaeus语料库是一个专门的生物医学NER数据集，专注于科学文献中的物种名称识别和生物体识别。该语料库以建立现代分类命名法的卡尔·林奈（Carl Linnaeus）命名，包含了标准化为NCBI分类标识符的物种提及注释。该数据集对于生物多样性信息学、生态研究和生物文献挖掘至关重要，因为在这些领域中准确的生物体识别是必不可少的。它支持开发用于分类学研究、物种分布研究和比较基因组学应用的文本挖掘系统。该语料库解决了在不同生物文本中识别生物体科学名称和常用名称的挑战。

性能指标

当前模型性能

F1分数：0.72
精确率：0.66
召回率：0.79
准确率：0.97

在LINNAEUS数据集上的比较性能

排名	模型	F1分数	精确率	召回率	准确率
🥇 1	OpenMed-NER-SpeciesDetect-PubMed-335M	0.9649	0.9582	0.9718	0.9967
🥈 2	OpenMed-NER-SpeciesDetect-PubMed-109M	0.9543	0.9422	0.9667	0.9956
🥉 3	OpenMed-NER-SpeciesDetect-BioMed-335M	0.9539	0.9441	0.9638	0.9957
4	OpenMed-NER-SpeciesDetect-SuperClinical-434M	0.9534	0.9369	0.9704	0.9959
5	OpenMed-NER-SpeciesDetect-PubMed-109M	0.9502	0.9317	0.9695	0.9951
6	OpenMed-NER-SpeciesDetect-MultiMed-335M	0.9479	0.9286	0.9680	0.9955
7	OpenMed-NER-SpeciesDetect-MultiMed-568M	0.9460	0.9312	0.9613	0.9957
8	OpenMed-NER-SpeciesDetect-SuperMedical-355M	0.9433	0.9221	0.9655	0.9953
9	OpenMed-NER-SpeciesDetect-SuperClinical-141M	0.9406	0.9290	0.9525	0.9950
10	OpenMed-NER-SpeciesDetect-ModernClinical-395M	0.9385	0.9379	0.9392	0.9940