MaterialsBERT开源NLP模型 - 免费部署助力材料科学相关任务处理

首页

Materialsbert

由 pranav-s 开发

MaterialsBERT是基于材料科学领域数据微调的自然语言处理模型，在材料科学相关任务中表现优异。

大型语言模型

Transformers

英语开源协议:其他 #材料科学NLP #领域微调 #学术摘要处理

下载量 287

发布时间 : 1/4/2023

模型简介

MaterialsBERT是对PubMedBERT模型在材料科学领域的特定微调，通过在240万篇材料科学摘要上的训练，提升了在材料科学NLP任务中的性能。

模型特点

领域特定微调

在240万篇材料科学摘要数据集上对PubMedBERT模型进行微调，提升在材料科学NLP任务中的性能。

性能优越

在材料科学的下游序列标注任务中，在五个数据集中的三个上优于其他基线语言模型。

生物医学领域基础

基于PubMedBERT模型微调，该模型已在生物医学文献上预训练，与材料科学领域相近。

模型能力

材料科学文本理解

材料科学文献摘要分析

材料科学序列标注

材料科学文本分类

使用案例

材料科学研究

材料属性提取

从材料科学文献中提取材料属性数据

在特定数据集上优于其他基线模型

材料科学文献分类

对材料科学文献进行自动分类

🚀 MaterialsBERT

MaterialsBERT 是一个在自然语言处理领域具有重要价值的模型，它基于特定领域的数据进行微调，能够在材料科学相关的下游任务中表现出色，为材料科学研究提供了强大的支持。

🚀 快速开始

你可以使用以下代码在 PyTorch 中获取给定文本的特征：

from transformers import BertForMaskedLM, BertTokenizer
tokenizer = BertTokenizer.from_pretrained('pranav-s/MaterialsBERT')
model = BertForMaskedLM.from_pretrained('pranav-s/MaterialsBERT')
text = "Enter any text you like"
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

✨ 主要特性

领域特定微调：在 240 万篇材料科学摘要数据集上对 PubMedBERT 模型进行微调，提升了在各种 NLP 下游任务中的性能。
性能优越：在材料科学的各种下游序列标注任务中进一步微调时，在五个数据集中的三个数据集上优于其他基线语言模型。

📚 详细文档

模型描述

特定领域的微调已被证明可以提高各种 NLP 任务的下游性能。MaterialsBERT 对 PubMedBERT 进行了微调，PubMedBERT 是一个使用生物医学文献训练的预训练语言模型。选择这个模型是因为生物医学领域与材料科学领域相近。MaterialsBERT 在材料科学的各种下游序列标注任务中进一步微调后，在五个数据集中的三个数据集上优于其他测试的基线语言模型。

预期用途与限制

你可以将原始模型用于掩码语言建模或下一句预测，但它主要用于在与材料科学相关的下游任务中进行微调。请注意，该模型主要旨在针对使用句子或段落（可能是掩码的）来做出决策的任务进行微调，例如序列分类、标记分类或问答。

训练数据

使用了一个包含 240 万篇材料科学摘要的微调语料库。所用期刊文章的 DOI 信息在文件 training_DOI.txt 中提供。

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：5e-05
训练批次大小：32
评估批次大小：32
随机种子：42
优化器：Adam（beta=(0.9, 0.999)，epsilon=1e-08）
学习率调度器类型：线性
训练轮数：3.0
混合精度训练：Native AMP

框架版本

Transformers 4.17.0
Pytorch 1.10.2
Datasets 1.18.3
Tokenizers 0.11.0

🔧 技术细节

该模型在这篇论文中被提出，是对 PubMedBERT 模型在材料科学领域的特定微调，通过在大量材料科学摘要数据上的训练，使得模型在材料科学相关的 NLP 任务中表现更优。

📄 许可证

许可证类型为其他（other）。

📝 引用

如果你在研究中发现 MaterialsBERT 很有用，请引用以下论文：

@article{materialsbert,
  title={A general-purpose material property data extraction pipeline from large polymer corpora using natural language processing},
  author={Shetty, Pranav and Rajan, Arunkumar Chitteth and Kuenneth, Chris and Gupta, Sonakshi and Panchumarti, Lakshmi Prerana and Holm, Lauren and Zhang, Chao and Ramprasad, Rampi},
  journal={npj Computational Materials},
  volume={9},
  number={1},
  pages={52},
  year={2023},
  publisher={Nature Publishing Group UK London}
}