polyBERT开源化学语言模型 - 免费实现聚合物信息学快速处理与结构数值化

首页

Polybert

由 kuelumbus 开发

polyBERT是一个化学语言模型，旨在实现完全由机器驱动的超快聚合物信息学。它将PSMILES字符串映射为600维密集指纹，以数值形式表示聚合物化学结构。

文本嵌入

Transformers

#聚合物化学指纹 #PSMILES编码 #材料信息学

下载量 1.0M

发布时间 : 9/15/2022

模型简介

polyBERT是一个专门用于聚合物化学的句子转换器模型，能够将PSMILES字符串转换为600维的密集指纹，用于表示聚合物化学结构。

模型特点

化学语言处理

专门设计用于处理聚合物化学的PSMILES字符串，能够理解化学结构。

高维指纹

将PSMILES字符串映射为600维的密集指纹，提供丰富的化学结构表示。

快速信息学

支持超快的聚合物信息学处理，适合大规模化学数据分析。

模型能力

化学结构表示

句子相似度计算

特征提取

使用案例

化学信息学

聚合物化学结构分析

使用polyBERT将PSMILES字符串转换为指纹，用于化学结构分析和比较。

能够高效地表示和比较聚合物化学结构。

化学数据库检索

利用polyBERT生成的指纹进行化学数据库的快速检索和相似性搜索。

提高检索速度和准确性。

🚀 kuelumbus/polyBERT

这是 polyBERT：一种化学语言模型，可实现完全由机器驱动的超快速聚合物信息学。polyBERT 可将 PSMILES 字符串映射到 600 维的密集指纹。这些指纹以数值形式表示聚合物的化学结构。有关许可协议，请参阅 LICENSE 文件。

🚀 快速开始

✨ 主要特性

这是一个化学语言模型，能够实现完全由机器驱动的超快速聚合物信息学。
可将 PSMILES 字符串映射到 600 维的密集指纹，以数值形式表示聚合物化学结构。

📦 安装指南

若要使用此模型，需要安装 sentence-transformers，安装命令如下：

pip install sentence-transformers

💻 使用示例

基础用法（Sentence-Transformers）

当你安装了 sentence-transformers 后，使用该模型会变得很简单。示例代码如下：

from sentence_transformers import SentenceTransformer
psmiles_strings = ["[*]CC[*]", "[*]COC[*]"]

polyBERT = SentenceTransformer('kuelumbus/polyBERT')
embeddings = polyBERT.encode(psmiles_strings)
print(embeddings)

高级用法（HuggingFace Transformers）

如果没有安装 sentence-transformers，可以按以下方式使用该模型：首先，将输入数据传递给变压器模型，然后对上下文词嵌入应用正确的池化操作。示例代码如下：

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
psmiles_strings = ["[*]CC[*]", "[*]COC[*]"]

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('kuelumbus/polyBERT')
polyBERT = AutoModel.from_pretrained('kuelumbus/polyBERT')

# Tokenize sentences
encoded_input = tokenizer(psmiles_strings, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = polyBERT(**encoded_input)

# Perform pooling. In this case, mean pooling.
fingerprints = mean_pooling(model_output, encoded_input['attention_mask'])

print("Fingerprints:")
print(fingerprints)

📚 详细文档

评估结果：请参阅 https://github.com/Ramprasad-Group/polyBERT 和 arXiv 上的论文。
完整模型架构：

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: DebertaV2Model 
  (1): Pooling({'word_embedding_dimension': 600, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

📄 许可证

请查看 LICENSE 文件中的许可协议。

📖 引用与作者

Kuenneth, C., Ramprasad, R. polyBERT: a chemical language model to enable fully machine-driven ultrafast polymer informatics. Nat Commun 14, 4099 (2023). https://doi.org/10.1038/s41467-023-39868-6