🚀 MaterialsBERT
MaterialsBERT 是一个在自然语言处理领域具有重要价值的模型,它基于特定领域的数据进行微调,能够在材料科学相关的下游任务中表现出色,为材料科学研究提供了强大的支持。
🚀 快速开始
你可以使用以下代码在 PyTorch 中获取给定文本的特征:
from transformers import BertForMaskedLM, BertTokenizer
tokenizer = BertTokenizer.from_pretrained('pranav-s/MaterialsBERT')
model = BertForMaskedLM.from_pretrained('pranav-s/MaterialsBERT')
text = "Enter any text you like"
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
✨ 主要特性
- 领域特定微调:在 240 万篇材料科学摘要数据集上对 PubMedBERT 模型 进行微调,提升了在各种 NLP 下游任务中的性能。
- 性能优越:在材料科学的各种下游序列标注任务中进一步微调时,在五个数据集中的三个数据集上优于其他基线语言模型。
📚 详细文档
模型描述
特定领域的微调已被 证明 可以提高各种 NLP 任务的下游性能。MaterialsBERT 对 PubMedBERT 进行了微调,PubMedBERT 是一个使用生物医学文献训练的预训练语言模型。选择这个模型是因为生物医学领域与材料科学领域相近。MaterialsBERT 在材料科学的各种下游序列标注任务中进一步微调后,在五个数据集中的三个数据集上优于其他测试的基线语言模型。
预期用途与限制
你可以将原始模型用于掩码语言建模或下一句预测,但它主要用于在与材料科学相关的下游任务中进行微调。请注意,该模型主要旨在针对使用句子或段落(可能是掩码的)来做出决策的任务进行微调,例如序列分类、标记分类或问答。
训练数据
使用了一个包含 240 万篇材料科学摘要的微调语料库。所用期刊文章的 DOI 信息在文件 training_DOI.txt 中提供。
训练过程
训练超参数
训练期间使用了以下超参数:
- 学习率:5e-05
- 训练批次大小:32
- 评估批次大小:32
- 随机种子:42
- 优化器:Adam(beta=(0.9, 0.999),epsilon=1e-08)
- 学习率调度器类型:线性
- 训练轮数:3.0
- 混合精度训练:Native AMP
框架版本
- Transformers 4.17.0
- Pytorch 1.10.2
- Datasets 1.18.3
- Tokenizers 0.11.0
🔧 技术细节
该模型在 这篇 论文中被提出,是对 PubMedBERT 模型在材料科学领域的特定微调,通过在大量材料科学摘要数据上的训练,使得模型在材料科学相关的 NLP 任务中表现更优。
📄 许可证
许可证类型为其他(other)。
📝 引用
如果你在研究中发现 MaterialsBERT 很有用,请引用以下论文:
@article{materialsbert,
title={A general-purpose material property data extraction pipeline from large polymer corpora using natural language processing},
author={Shetty, Pranav and Rajan, Arunkumar Chitteth and Kuenneth, Chris and Gupta, Sonakshi and Panchumarti, Lakshmi Prerana and Holm, Lauren and Zhang, Chao and Ramprasad, Rampi},
journal={npj Computational Materials},
volume={9},
number={1},
pages={52},
year={2023},
publisher={Nature Publishing Group UK London}
}