BiodivBERT开源模型 - 免费助力生物多样性文献研究与分析

首页

Biodivbert

由 NoYo25 开发

BiodivBERT是一个基于BERT的领域特定模型，专为生物多样性文献设计。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #生物多样性文本挖掘 #领域预训练模型 #科学文献分析

下载量 49

发布时间 : 5/16/2022

模型简介

BiodivBERT是一个面向生物多样性领域的预训练语言模型，针对生物多样性文献的命名实体识别和关系抽取任务进行了优化。

模型特点

生物多样性领域优化

专门针对生物多样性文献进行预训练，在相关任务上表现优于通用BERT模型。

多任务支持

同时支持命名实体识别和关系抽取两个下游任务。

大规模训练数据

使用了1990-2020年间Springer和Elsevier的摘要及开放获取全文出版物进行训练。

模型能力

生物多样性文本理解

命名实体识别

关系抽取

掩码语言模型预测

使用案例

学术研究

生物多样性文献分析

从生物多样性相关文献中提取关键实体和关系

在多个生物多样性数据集上表现优于通用BERT模型

信息抽取

物种关系识别

从科学文献中识别物种间的生态关系

🚀 BiodivBERT

BiodivBERT是一个针对生物多样性文献的特定领域BERT大小写敏感模型。它基于生物多样性文献的摘要和全文进行预训练，并在生物多样性领域的命名实体识别和关系提取两个下游任务上进行了微调，为生物多样性领域的文本处理提供了强大支持。

🚀 快速开始

你可以通过huggingface库使用BiodivBERT，示例如下：

💻 使用示例

基础用法

# 1. 掩码语言模型
>>> from transformers import AutoTokenizer, AutoModelForMaskedLM
>>> tokenizer = AutoTokenizer.from_pretrained("NoYo25/BiodivBERT")
>>> model = AutoModelForMaskedLM.from_pretrained("NoYo25/BiodivBERT")

# 2. 标记分类 - 命名实体识别
>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> tokenizer = AutoTokenizer.from_pretrained("NoYo25/BiodivBERT")
>>> model = AutoModelForTokenClassification.from_pretrained("NoYo25/BiodivBERT")

# 3. 序列分类 - 关系提取
>>> from transformers import AutoTokenizer, AutoModelForSequenceClassification
>>> tokenizer = AutoTokenizer.from_pretrained("NoYo25/BiodivBERT")
>>> model = AutoModelForSequenceClassification.from_pretrained("NoYo25/BiodivBERT")

✨ 主要特性

BiodivBERT是针对生物多样性文献的特定领域BERT大小写敏感模型。
使用BERT base cased模型的分词器。
基于生物多样性文献的摘要和全文进行预训练。
在生物多样性领域的命名实体识别和关系提取两个下游任务上进行了微调。

📦 安装指南

文档未提供相关安装步骤，故跳过该章节。

📚 详细文档

模型描述

BiodivBERT是针对生物多样性文献的特定领域BERT大小写敏感模型。
使用BERT base cased模型的分词器。
基于生物多样性文献的摘要和全文进行预训练。
在生物多样性领域的命名实体识别和关系提取两个下游任务上进行了微调。
更多详情请访问我们的GitHub仓库。

训练数据

BiodivBERT基于与生物多样性领域相关出版物的摘要和全文进行预训练。
使用Elsevier和Springer的API来爬取这些数据。
涵盖了1990 - 2020年期间的出版物。

评估结果

在下游任务中，BiodivBERT的表现优于作为基线方法的BERT_base_cased、biobert_v1.1和BiLSTM。

评估数据集

数据集链接：https://doi.org/10.5281/zenodo.6554208
命名实体识别数据集：COPIOUS、QEMP、BiodivNER、LINNAEUS、Species800
关系提取数据集：GAD、EU - ADR、BiodivRE、BioRelEx

指标

F1值
精确率
召回率
准确率

引用信息

"Abdelmageed, N., Löffler, F., & König - Ries, B. (2023). BiodivBERT: a Pre - Trained Language Model for the Biodiversity Domain."

论文链接

[https://ceur - ws.org/Vol - 3415/paper - 7.pdf](https://ceur - ws.org/Vol - 3415/paper - 7.pdf)

训练数据

爬取关键词：biodivers、genetic diversity、omic diversity、phylogenetic diversity、soil diversity、population diversity、species diversity、ecosystem diversity、functional diversity、microbial diversity
语料库：
- (+Abs) 1990 - 2020年期间Springer和Elsevier的摘要
- (+Abs+Full) 1990 - 2020年期间Springer和Elsevier的摘要以及开放获取的完整出版物文本

预训练超参数

MAX_LEN = 512 # BERT分词器的默认值
MLM_PROP = 0.15 # 数据整理器
num_train_epochs = 3 # 许多文章中发现的最小足够轮数，也是此处训练器的默认值
per_device_train_batch_size = 16 # 在旧运行中，使用512 MAX_LEN时，Ara上的V100能容纳的最大值为8
per_device_eval_batch_size = 16 # 通常与上述相同
gradient_accumulation_steps = 4 # 这将保证最小批量大小为16 * 4 * nGPUs

🔧 技术细节

文档未提供足够的技术实现细节，故跳过该章节。

📄 许可证

本项目采用Apache 2.0许可证。

信息表格

属性	详情
模型类型	针对生物多样性文献的特定领域BERT大小写敏感模型
训练数据	爬取关键词：biodivers、genetic diversity等；语料库：1990 - 2020年期间Springer和Elsevier的摘要及完整出版物文本
评估指标	F1值、精确率、召回率、准确率
评估数据集	命名实体识别：COPIOUS、QEMP等；关系提取：GAD、EU - ADR等；数据集链接：https://doi.org/10.5281/zenodo.6554208
引用信息	Abdelmageed, N., Löffler, F., & König - Ries, B. (2023). BiodivBERT: a Pre - Trained Language Model for the Biodiversity Domain.
论文链接	[https://ceur - ws.org/Vol - 3415/paper - 7.pdf](https://ceur - ws.org/Vol - 3415/paper - 7.pdf)
许可证	Apache 2.0