TxGemma-27b-predict开源语言模型 - 免费助力治疗开发，精准处理治疗与靶点信息

首页

Txgemma 27b Predict

由 google 开发

TxGemma是基于Gemma 2构建的一系列轻量级、先进的开放语言模型，专为治疗开发而微调。提供2B、9B和27B三种规模，擅长处理与治疗方式和靶点相关的信息。

大型语言模型

Transformers

英语开源协议:其他 #药物属性预测 #治疗开发对话 #多模态治疗理解

下载量 1,255

发布时间 : 3/21/2025

模型简介

TxGemma是专为治疗开发优化的语言模型系列，擅长属性预测等任务，可作为药物发现的基础模型或交互式对话代理。支持小分子、蛋白质、核酸等多种治疗相关数据的处理。

模型特点

多功能性

在广泛的治疗任务中表现出色，在大量基准测试中超越或匹配最佳性能

数据效率

与大型模型相比，即使在数据有限的情况下也表现出竞争力

对话能力

TxGemma-Chat变体可进行自然语言对话并解释预测逻辑

微调基础

可作为预训练基础用于专业治疗开发用例

模型能力

治疗属性预测

药物-靶点相互作用分析

自然语言对话解释

多轮交互推理

治疗开发辅助决策

使用案例

药物发现

血脑屏障穿透预测

根据药物SMILES字符串预测其穿透血脑屏障的能力

在BBB_Martins任务中表现优异

靶点识别

分析潜在药物靶点的相互作用可能性

临床研究

临床试验批准预测

预测药物获得临床试验批准的可能性

🚀 TxGemma模型

TxGemma是基于Gemma 2构建的轻量级、最先进的开放语言模型集合，针对治疗开发进行了微调。它有2B、9B和27B三种规模，能处理和理解与各种治疗方式和靶点相关的信息，可用于药物发现等多个领域，为研究人员提供了强大的工具。

🚀 快速开始

以下是一些示例代码片段，可帮助你在GPU上快速本地运行模型。如果你想使用该模型对大量输入进行推理，建议使用Model Garden创建生产版本。

治疗任务提示格式化

import json
from huggingface_hub import hf_hub_download

# Load prompt template for tasks from TDC
tdc_prompts_filepath = hf_hub_download(
    repo_id="google/txgemma-27b-predict",
    filename="tdc_prompts.json",
)
with open(tdc_prompts_filepath, "r") as f:
    tdc_prompts_json = json.load(f)

# Set example TDC task and input
task_name = "BBB_Martins"
input_type = "{Drug SMILES}"
drug_smiles = "CN1C(=O)CN=C(C2=CCCCC2)c2cc(Cl)ccc21"

# Construct prompt using template and input drug SMILES string
TDC_PROMPT = tdc_prompts_json[task_name].replace(input_type, drug_smiles)
print(TDC_PROMPT)

生成的提示符合模型预期的格式：

Instructions: Answer the following question about drug properties.
Context: As a membrane separating circulating blood and brain extracellular fluid, the blood-brain barrier (BBB) is the protection layer that blocks most foreign drugs. Thus the ability of a drug to penetrate the barrier to deliver to the site of action forms a crucial challenge in development of drugs for central nervous system.
Question: Given a drug SMILES string, predict whether it
(A) does not cross the BBB (B) crosses the BBB
Drug SMILES: CN1C(=O)CN=C(C2=CCCCC2)c2cc(Cl)ccc21
Answer:

在预测任务上运行模型

# pip install accelerate transformers
from transformers import AutoTokenizer, AutoModelForCausalLM

# Load model directly from Hugging Face Hub
tokenizer = AutoTokenizer.from_pretrained("google/txgemma-27b-predict")
model = AutoModelForCausalLM.from_pretrained(
    "google/txgemma-27b-predict",
    device_map="auto",
)

# Formatted TDC prompt (see "Formatting prompts for therapeutic tasks" section above)
prompt = TDC_PROMPT

# Prepare tokenized inputs
input_ids = tokenizer(prompt, return_tensors="pt").to("cuda")

# Generate response
outputs = model.generate(**input_ids, max_new_tokens=8)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

或者，你可以使用pipeline API，它提供了一种简单的方法来运行推理，同时抽象掉加载和使用模型及分词器的复杂细节：

# pip install transformers
from transformers import pipeline

# Instantiate a text generation pipeline using the model
pipe = pipeline(
    "text-generation",
    model="google/txgemma-27b-predict",
    device="cuda",
)

# Formatted TDC prompt (see "Formatting prompts for therapeutic tasks" section above)
prompt = TDC_PROMPT

# Generate response
outputs = pipe(prompt, max_new_tokens=8)
response = outputs[0]["generated_text"]
print(response)

✨ 主要特性

关键特性

多功能性：在广泛的治疗任务中表现出色，在大量基准测试中超越或达到同类最佳性能。
数据效率：与大型模型相比，即使在数据有限的情况下也能展现出有竞争力的性能，较前代模型有所改进。
对话能力（TxGemma - Chat）：包含能够进行自然语言对话并解释预测推理过程的对话变体。
微调基础：可作为预训练基础用于特定用例。

潜在应用

TxGemma对以下领域的研究人员来说是一个有价值的工具：

加速药物发现：通过预测治疗方法和靶点的特性，简化治疗开发过程，可用于多种任务，包括靶点识别、药物 - 靶点相互作用预测和临床试验批准预测。

📦 安装指南

文档未提及具体安装步骤，可参考上述快速开始部分的代码示例在本地运行模型。若要对大量输入进行推理，建议使用Model Garden创建生产版本。

💻 使用示例

基础用法

上述快速开始部分的代码示例展示了如何在GPU上本地运行模型，包括治疗任务提示格式化和在预测任务上运行模型。

📚 详细文档

模型信息

TxGemma是基于Gemma 2构建的轻量级、最先进的开放语言模型集合，针对治疗开发进行了微调。它有2B、9B和27B三种规模，旨在处理和理解与各种治疗方式和靶点相关的信息，包括小分子、蛋白质、核酸、疾病和细胞系等。

模型架构概述

架构基础：基于Gemma 2系列轻量级、最先进的开放大语言模型，采用仅解码器的Transformer架构。
基础模型：Gemma 2（2B、9B和27B参数版本）。
微调数据：治疗数据公共库（Therapeutics Data Commons），这是一组涵盖多种治疗方式和靶点的指令调优数据集。
训练方法：使用治疗数据（TxT）的混合进行指令微调，对于对话变体，还使用通用指令调优数据。
对话变体：TxGemma - Chat模型（9B和27B）使用治疗和通用指令调优数据的混合进行训练，以保持对话能力。

技术规格

属性	详情
模型类型	仅解码器的Transformer（基于Gemma 2）
关键出版物	TxGemma: Efficient and Agentic LLMs for Therapeutics
模型创建时间	2025 - 03 - 18（来自TxGemma变体提案）
模型版本	1.0.0

性能与验证

TxGemma的性能已在从TDC派生的66个治疗任务的综合基准测试中得到验证。

关键性能指标

综合改进：在66个治疗任务中的45个任务上比原始Tx - LLM论文有所改进。
同类最佳性能：在66个任务中的50个任务上超越或达到同类最佳性能，在26个任务上超过专业模型。完整明细见TxGemma论文的表A.11。

输入和输出

输入：文本。为获得最佳性能，文本提示应根据TDC结构进行格式化，包括指令、上下文、问题，以及可选的少量示例。输入可以包括SMILES字符串、氨基酸序列、核苷酸序列和自然语言文本。
输出：文本。

🔧 技术细节

数据集详情

训练数据集

治疗数据公共库：一个经过精心策划的指令调优数据集集合，涵盖66个任务，涉及安全有效药物的发现和开发。这包括跨越不同生物医学实体的超过1500万个数据点。已发布的TxGemma模型仅在具有商业许可证的数据集上进行训练，而论文中的模型还在具有非商业许可证的数据集上进行训练。
通用指令调优数据：与TDC结合用于TxGemma - Chat。

评估数据集

治疗数据公共库：使用与训练相同的66个任务进行评估，遵循TDC推荐的数据分割方法（随机、支架、冷启动、组合和时间分割）。

软件

训练使用[JAX](https://github.com/jax - ml/jax)完成。JAX使研究人员能够利用最新一代的硬件（包括TPU），实现大型模型的更快、更高效训练。

📄 许可证

TxGemma的使用受Health AI Developer Foundations使用条款的约束。

使用与限制

预期用途

治疗方法的研究与开发。

优点

TxGemma为加速治疗开发提供了一个多功能且强大的工具，具有以下优点：

在广泛的任务中表现出色。
与大型模型相比具有数据效率。
可作为从私有数据进行进一步微调的基础。
可集成到代理工作流中。

限制

在TDC的公共数据上进行训练。
特定任务的验证仍然是最终用户进行下游模型开发的重要方面。
与任何研究一样，开发人员应确保任何下游应用都经过验证，以了解使用与特定应用预期使用场景（如年龄、性别、状况、扫描仪等）相适应的数据时的性能。

引用

@article{wang2025txgemma,
    title={TxGemma: Efficient and Agentic LLMs for Therapeutics},
    author={Wang, Eric and Schmidgall, Samuel and Jaeger, Paul F. and Zhang, Fan and Pilgrim, Rory and Matias, Yossi and Barral, Joelle and Fleet, David and Azizi, Shekoofeh},
    year={2025},
}

可在此找到该论文。