B

Bioformer 8L

由 bioformers 开发
专为生物医学文本挖掘设计的轻量化BERT模型,运行速度是BERT-base的3倍,性能与BioBERT/PubMedBERT相当甚至更优
下载量 164
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

Bioformer-8L是一款基于生物医学领域语料从头预训练的轻量化BERT模型,采用生物医学专用词汇表,适用于各种生物医学文本挖掘任务

模型特点

生物医学专用
完全基于生物医学领域语料(PubMed摘要和PMC全文)预训练,采用生物医学专用词汇表
高效轻量
参数规模42.8M,运行速度是BERT-base的3倍,在下游任务中保持高性能
全词掩码策略
预训练采用全词掩码(whole-word masking)策略,掩码率15%
专业词汇覆盖
词汇表基于生物医学文献训练,包含32768个token,涵盖生物医学特殊符号

模型能力

生物医学文本理解
掩码语言建模
生物医学实体识别
生物医学文本分类

使用案例

生物医学研究
疾病概念识别
识别生物医学文本中的疾病相关概念
在掩码填充示例中准确识别'糖尿病'等医学概念
文献分类
对生物医学文献进行多标签主题分类
在BioCreative VII新冠肺炎分类挑战赛中取得最佳性能
临床文本处理
临床记录分析
分析临床记录中的关键医学信息