M

Molformer XL Both 10pct

由 ibm-research 开发
MoLFormer是基于ZINC和PubChem中11亿分子SMILES字符串预训练的化学语言模型,本版本使用两个数据集各10%样本训练
下载量 171.96k
发布时间 : 10/20/2023
模型介绍
内容详情
替代品

模型简介

采用线性注意力Transformer架构的化学语言模型,主要用于分子特征提取和属性预测任务

模型特点

高效注意力机制
采用线性注意力Transformer架构,显著降低计算复杂度
双数据集预训练
同时使用ZINC15和PubChem数据集进行训练,覆盖更广的化学空间
分子表征学习
通过自监督学习捕获分子结构与性质的关系

模型能力

分子特征提取
分子属性预测
分子相似性计算

使用案例

药物发现
溶解度预测
预测化合物的水溶性
在ESOL数据集上RMSE为0.3295
毒性预测
评估化合物毒性
在Tox21数据集上AUROC达84.5
材料科学
量子化学性质预测
预测分子的量子力学性质
在QM9数据集上MAE为1.7754