🚀 PolymerNER
PolymerNER 是一个用于材料科学文本的命名实体识别(NER)模型。它基于 MaterialsBERT 模型微调而来,能够识别多种实体类型,如聚合物、聚合物家族、有机材料、无机材料等,可应用于材料科学文本的序列标注和实体标记任务。
🚀 快速开始
你可以使用该模型对材料科学文本进行序列标注/实体标记任务。以下是使用该模型标记实体的示例代码:
from transformers import AutoModelForTokenClassification, AutoTokenizer, pipeline
tokenizer = AutoTokenizer.from_pretrained('pranav-s/PolymerNER', model_max_length=512)
model = AutoModelForTokenClassification.from_pretrained('pranav-s/PolymerNER')
ner_pipeline = pipeline(task="ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple", device='cpu')
text = "Polyethylene has a glass transition temperature of -100 °C"
ner_output = ner_pipeline(text)
✨ 主要特性
- 该模型是 MaterialsBERT 模型在 638 篇摘要数据集上的微调版本,在 MaterialsBERT 基础上添加了线性层,用于预测每个标记的实体类型。
- 预测的实体类型包括 POLYMER、POLYMER_FAMILY、ORGANIC、INORGANIC、MONOMER、PROP_NAME、PROP_VALUE、MATERIAL_AMOUNT。
- 由于 MaterialsBERT 不区分大小写,该 NER 模型也不区分大小写。
📦 安装指南
暂未提及具体安装步骤,可参考 transformers
库的安装方式。
💻 使用示例
基础用法
from transformers import AutoModelForTokenClassification, AutoTokenizer, pipeline
tokenizer = AutoTokenizer.from_pretrained('pranav-s/PolymerNER', model_max_length=512)
model = AutoModelForTokenClassification.from_pretrained('pranav-s/PolymerNER')
ner_pipeline = pipeline(task="ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple", device='cpu')
text = "Polyethylene has a glass transition temperature of -100 °C"
ner_output = ner_pipeline(text)
📚 详细文档
预期用途和限制
该模型可用于材料科学文本的序列标注/实体标记任务。模型的训练、验证和测试数据由与聚合物相关的摘要组成,但模型标记的实体具有通用性,可用于任何材料科学文本,以标记模型本体中定义的实体类型。
训练数据
使用了包含 638 篇聚合物摘要的训练数据集,该数据集可在 此处 获取。
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率:5e-05
- 训练批次大小:8
- 评估批次大小:8
- 随机种子:42
- 优化器:Adam,其中 betas=(0.9, 0.999),epsilon=1e-08
- 学习率调度器类型:线性
- 训练轮数:5
框架版本
- Transformers 4.17.0
- Pytorch 1.10.2
- Datasets 1.18.3
- Tokenizers 0.11.0
📄 许可证
该模型使用其他许可证。
📚 引用
如果你在研究中发现 PolymerNER 很有用,请引用以下论文:
@article{materialsbert,
title={A general-purpose material property data extraction pipeline from large polymer corpora using natural language processing},
author={Shetty, Pranav and Rajan, Arunkumar Chitteth and Kuenneth, Chris and Gupta, Sonakshi and Panchumarti, Lakshmi Prerana and Holm, Lauren and Zhang, Chao and Ramprasad, Rampi},
journal={npj Computational Materials},
volume={9},
number={1},
pages={52},
year={2023},
publisher={Nature Publishing Group UK London}
}