EriBERTa-base开源医学语言模型 - 免费部署实现医学文本理解与信息提取

首页

Eriberta Base

由 HiTZ 开发

EriBERTa是一个基于海量医学临床语料库预训练的双语领域专用语言模型，在临床领域超越了既往所有西班牙语模型，展现出卓越的医学文本理解与信息提取能力。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #临床医学NLP #双语医学模型 #西班牙语医疗

下载量 728

发布时间 : 6/11/2024

模型简介

面向临床自然语言处理的双语预训练语言模型，支持英语和西班牙语，专注于生物医学和医疗领域的文本理解与信息提取。

模型特点

双语医学专业模型

专门针对英语和西班牙语医学临床文本进行预训练，在医学领域表现优异

跨语言知识迁移

能够实现英语和西班牙语之间的知识迁移，特别适合西班牙语临床数据稀缺的场景

大规模医学语料训练

基于多语言医学语料库（HiTZ/多语言医学语料库）进行预训练，处理了45亿token

模型能力

医学文本理解

临床信息提取

双语文本处理

掩码语言预测

使用案例

临床文本分析

医学报告异常检测

分析医学报告中的异常情况，如'全身骨骼X光片未检测到<mask>异常'

能够准确预测医学报告中的专业术语

手术记录分析

理解手术记录中的专业术语，如'经皮冠状动脉<mask>手术'

能够正确预测手术类型和术语

临床检查分析

检查结果解读

解读临床检查结果，如'无<mask>或角膜炎迹象'

能够准确预测检查结果中的专业医学术语

🚀 EriBERTa

EriBERTa是一个经过预训练的双语特定领域语言模型，在大量医学和临床语料库上进行训练。它在临床领域的表现优于以往的西班牙语语言模型，展现出强大的医学文本理解和信息提取能力。此外，EriBERTa还具备出色的迁移学习能力，可实现跨语言的知识迁移，这对于西班牙语临床数据稀缺的情况尤为有利。

🚀 快速开始

你可以使用以下代码加载模型：

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("HiTZ/EriBERTa-base")
model = AutoModelForMaskedLM.from_pretrained("HiTZ/EriBERTa-base")

📚 详细文档

模型描述

开发者：Iker De la Iglesia、Aitziber Atutxa、Koldo Gojenola和Ander Barrena
联系方式：Iker De la Iglesia 和 Ander Barrena
支持语言（NLP）：英语、西班牙语
许可证：apache - 2.0
资助来源：
- 西班牙科学与创新部，MCIN/AEI/ 10.13039/501100011033/FEDER项目：
  - 2022年知识生成项目（EDHIA PID2022 - 136522OB - C22）
  - DOTT - HEALTH/PAT - MED PID2019 - 543106942RB - C31。
  - 欧盟NextGeneration EU/PRTR（DeepR3 TED2021 - 130295B - C31，ANTIDOTE PCI2020 - 120717 - 2欧盟ERA - Net CHIST - ERA）。
- 巴斯克政府：
  - IXA IT1570 - 22。

模型详情

属性	详情
模型参数数量	~1.25亿
词汇表大小	6.4万
序列长度	512
每步处理的词元数	200万
训练步数	12.5万
总词元数	45亿
学习率调度器	带热身的线性调度器
峰值学习率	2.683e - 4
热身步数	7500

训练数据

语言	来源	单词数
英语	ClinicalTrials	1.274亿
英语	EMEA	1200万
英语	PubMed	9.684亿
英语	MIMIC - III	2.06亿
西班牙语	EMEA	1360万
西班牙语	PubMed	840万
西班牙语	Medical Crawler	9.18亿
西班牙语	SPACC	35万
西班牙语	UFAL	1050万
西班牙语	WikiMed	520万

局限性和偏差

⚠️ 重要提示

EriBERTa目前针对掩码语言建模进行了优化，用于执行填空任务。虽然已经评估了其在下游任务（如命名实体识别和文本分类）上的微调潜力，但建议在将模型部署到生产环境之前，针对特定应用进行验证和测试，以确保其有效性和可靠性。由于医学临床语料库的稀缺性，EriBERTa模型是在从多个来源收集的语料库上进行训练的，包括网络爬取的数据。因此，所使用的语料库可能无法涵盖临床语言中所有可能的语言和上下文变化。因此，当模型应用于特定临床子领域或训练数据中未充分体现的罕见医疗状况时，可能会表现出局限性。

偏差情况

数据收集偏差：EriBERTa的训练数据来自多个来源，部分使用了网络爬取技术。这种方法可能会引入与某些类型的内容、观点和语言使用模式的普遍性相关的偏差。因此，模型可能会在其预测中反映并传播这些偏差。
人口统计学和语言偏差：由于网络来源的语料库可能无法平等地代表所有人口群体或语言细微差别，模型可能对某些人群的表现明显优于其他人群。这可能导致不同患者群体在临床数据处理和信息检索质量上存在差异。
未审查的伦理问题：截至目前，尚未采取全面措施来系统评估EriBERTa中嵌入的伦理影响和偏差。虽然我们致力于解决这些问题，但当前版本的模型可能会无意中延续数据中固有的现有偏差和伦理问题。

免责声明

⚠️ 重要提示

EriBERTa并非设计或开发用作医疗设备。任何输出都应由医疗专业人员进行验证，不得直接用于诊断。模型的输出可能并不总是完全可靠。由于语言模型的性质，预测可能会出现错误或偏差。我们不对该模型的使用承担任何责任，理想情况下，应在应用前对其进行微调测试。在未经合格专业人员彻底验证和监督的情况下，不得将其用作医疗工具或用于任何关键决策过程。

引用信息

@misc{delaiglesia2023eriberta,
      title={{EriBERTa: A Bilingual Pre-Trained Language Model for Clinical Natural Language Processing}}, 
      author={Iker De la Iglesia and Aitziber Atutxa and Koldo Gojenola and Ander Barrena},
      year={2023},
      eprint={2306.07373},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}