语言:
- 英文
缩略图: >-
https://www.fusion.uni-jena.de/fusionmedia/fusionpictures/fusion-service/fusion-transp.png?height=383&width=680
标签:
- bert-base-cased
- 生物多样性
- 标记分类
- 序列分类
许可证: apache-2.0
引用: "Abdelmageed, N., Löffler, F., & König-Ries, B. (2023). BiodivBERT: 一个面向生物多样性领域的预训练语言模型。"
论文: https://ceur-ws.org/Vol-3415/paper-7.pdf
评估指标:
- F1值
- 精确率
- 召回率
- 准确率
评估数据集:
- 网址: https://doi.org/10.5281/zenodo.6554208
- 命名实体识别:
- COPIOUS
- QEMP
- BiodivNER
- LINNAEUS
- Species800
- 关系抽取:
- GAD
- EU-ADR
- BiodivRE
- BioRelEx
训练数据:
- 爬取关键词:
- 生物多样性
- 遗传多样性
- 组学多样性
- 系统发育多样性
- 土壤多样性
- 种群多样性
- 物种多样性
- 生态系统多样性
- 功能多样性
- 微生物多样性
- 语料库:
- (+摘要) 1990-2020年间Springer和Elsevier的摘要
- (+摘要+全文) 1990-2020年间Springer和Elsevier的摘要及开放获取的全文出版物
预训练超参数:
- 最大长度 = 512 # BERT分词器默认值
- 掩码语言模型比例 = 0.15 # 数据整理器
- 训练轮数 = 3 # 多篇文献中发现的最低充足轮数 && 此处训练器的默认值
- 每设备训练批次大小 = 16 # 在Ara的V100上512最大长度时旧运行中能支持的最大值为8
- 每设备评估批次大小 = 16 # 通常同上
- 梯度累积步数 = 4 # 这将确保最小批次大小为16 * 4 * GPU数量。
BiodivBERT
模型描述
- BiodivBERT是一个基于BERT的领域特定模型,专为生物多样性文献设计。
- 它使用了BERT基础版cased模型的分词器。
- BiodivBERT在生物多样性文献的摘要和全文上进行了预训练。
- BiodivBERT针对生物多样性领域的命名实体识别和关系抽取两个下游任务进行了微调。
- 更多详情请访问我们的GitHub仓库。
使用方法
- 您可以通过huggingface库使用BiodivBERT,如下所示:
- 掩码语言模型
>>> from transformers import AutoTokenizer, AutoModelForMaskedLM
>>> tokenizer = AutoTokenizer.from_pretrained("NoYo25/BiodivBERT")
>>> model = AutoModelForMaskedLM.from_pretrained("NoYo25/BiodivBERT")
- 标记分类 - 命名实体识别
>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> tokenizer = AutoTokenizer.from_pretrained("NoYo25/BiodivBERT")
>>> model = AutoModelForTokenClassification.from_pretrained("NoYo25/BiodivBERT")
- 序列分类 - 关系抽取
>>> from transformers import AutoTokenizer, AutoModelForSequenceClassification
>>> tokenizer = AutoTokenizer.from_pretrained("NoYo25/BiodivBERT")
>>> model = AutoModelForSequenceClassification.from_pretrained("NoYo25/BiodivBERT")
训练数据
- BiodivBERT在生物多样性领域相关出版物的摘要和全文上进行了预训练。
- 我们使用了Elsevier和Springer的API来爬取这些数据。
- 我们涵盖了1990-2020年间的出版物。
评估结果
在下游任务中,BiodivBERT的表现优于BERT_base_cased
、biobert_v1.1
以及作为基线方法的BiLSTM
。