基础模型:
- microsoft/deberta-v3-base
数据集:
- knowledgator/GLINER-multi-task-synthetic-data
- knowledgator/biomed_NER
语言:
- en
库名称: gliner
许可证: apache-2.0
评估指标:
- f1
管道标签: token-classification
标签:
- NER
- GLiNER
- 信息抽取
- 编码器
- 实体识别
- 生物医学
GLiNER-生物医学版
该模型在论文GLiNER-biomed: 面向开放生物医学命名实体识别的高效模型套件中提出。
代码仓库位于https://github.com/ds4dh/GLiNER-biomed。
GLiNER是一种命名实体识别(NER)模型,能够使用双向Transformer编码器(BERT类)识别任何实体类型。它为传统NER模型提供了实用替代方案——后者受限于预定义实体,也为大语言模型(LLMs)提供了解决方案——尽管LLMs灵活但资源消耗大。
GLiNER-biomed是与日内瓦大学DS4DH合作开发的专用生物医学NER模型套件,基于GLiNER框架。该模型利用从生成式生物医学大模型提炼的合成标注数据,在生物医学实体识别任务中实现了零样本和小样本的先进性能。
代码与训练流程: https://github.com/ds4dh/GLiNER-biomed
使用方法
通过pip安装官方GLiNER库:
pip install gliner -U
安装完成后,可轻松加载GLiNER-biomed模型进行实体识别:
from gliner import GLiNER
model = GLiNER.from_pretrained("Ihor/gliner-biomed-base-v1.0")
text = """
患者为45岁男性,确诊患有2型糖尿病和高血压。
医嘱开具二甲双胍500mg每日两次,赖诺普利10mg每日一次。
近期化验显示糖化血红蛋白水平升高至8.2%。
"""
labels = ["疾病", "药物", "药物剂量", "用药频率", "化验项目", "化验值", "人口统计信息"]
entities = model.predict_entities(text, labels, threshold=0.5)
for entity in entities:
print(entity["text"], "=>", entity["label"])
预期输出:
45岁男性 => 人口统计信息
2型糖尿病 => 疾病
高血压 => 疾病
二甲双胍 => 药物
500mg => 药物剂量
每日两次 => 用药频率
赖诺普利 => 药物
10mg => 药物剂量
每日一次 => 用药频率
糖化血红蛋白水平 => 化验项目
8.2% => 化验值
性能基准
我们在8个复杂真实数据集上测试了模型,并与其他GLiNER模型对比。
加入Discord社区
欢迎加入我们的Discord社区,获取最新动态、技术支持和模型讨论。
引用
本工作
若使用GLiNER-biomed模型,请引用:
@misc{yazdani2025glinerbiomedsuiteefficientmodels,
title={GLiNER-biomed: 面向开放生物医学命名实体识别的高效模型套件},
author={Anthony Yazdani and Ihor Stepanov and Douglas Teodoro},
year={2025},
eprint={2504.00676},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2504.00676},
}
先前工作
@misc{zaratiana2023gliner,
title={GLiNER: 基于双向Transformer的通用命名实体识别模型},
author={Urchade Zaratiana and Nadi Tomeh and Pierre Holat and Thierry Charnois},
year={2023},
eprint={2311.08526},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@misc{stepanov2024gliner,
title={GLiNER多任务: 面向多种信息抽取任务的通用轻量模型},
author={Ihor Stepanov and Mykhailo Shtopko},
year={2024},
eprint={2406.12925},
archivePrefix={arXiv},
primaryClass={id='cs.LG' full_name='机器学习' is_active=True alt_name=None in_archive='cs' is_general=False description='涵盖机器学习所有研究方向的论文(监督/无监督/强化学习/赌博机问题等),包括鲁棒性、可解释性、公平性和方法论。cs.LG也适用于机器学习方法的应用研究。'}
}