许可证:其他
许可证名称:健康AI开发者基础条款
许可证链接:https://developers.google.com/health-ai-developer-foundations/terms
语言:
- 英文
任务标签:文本生成
库名称:transformers
标签:
- 治疗学
- 药物开发
额外授权标题:在Hugging Face上访问TxGemma
额外授权提示:>-
要访问Hugging Face上的TxGemma模型,您需要阅读并同意健康AI开发者基础使用条款。
请确保已登录Hugging Face账号并点击下方按钮。授权请求将即时处理。
额外授权按钮内容:确认许可
TxGemma模型卡片
模型文档:TxGemma
资源:
使用条款:健康AI开发者基础使用条款
作者: Google
模型信息
本节介绍TxGemma模型及其使用方法。
描述
TxGemma是基于Gemma 2微调的轻量级、前沿开源语言模型系列,专为治疗开发优化。提供2B、9B和27B三种规模。
TxGemma模型擅长处理小分子、蛋白质、核酸、疾病和细胞系等治疗靶点信息,在属性预测等任务中表现卓越,可作为微调基础或药物发现的交互式对话代理。模型通过治疗数据共享库(TDC)的多样化指令微调数据集从Gemma 2微调而来。
TxGemma既提供接受特定提示格式的预测模型,也提供9B/27B版本的对话模型(支持多轮交互和预测解释),但后者会略微牺牲原始预测性能。详见我们的论文。
核心特性
- 多功能性:在广泛治疗任务中表现优异,大量基准测试达到或超越最佳水平
- 数据高效:相比大模型,在有限数据下仍具竞争力
- 对话能力(TxGemma-Chat):支持自然语言对话并解释预测逻辑
- 微调基础:可作为专业用例的预训练基础
应用场景
研究者可在以下领域使用TxGemma:
- 加速药物发现:通过预测治疗属性和靶点,优化靶点识别、药物-靶点互作预测和临床试验审批预测等流程
使用方法
以下是GPU本地运行的示例代码。如需批量推理,建议使用模型园创建生产版本。
治疗任务提示格式化
import json
from huggingface_hub import hf_hub_download
tdc_prompts_filepath = hf_hub_download(
repo_id="google/txgemma-9b-predict",
filename="tdc_prompts.json",
)
with open(tdc_prompts_filepath, "r") as f:
tdc_prompts_json = json.load(f)
task_name = "BBB_Martins"
input_type = "{Drug SMILES}"
drug_smiles = "CN1C(=O)CN=C(C2=CCCCC2)c2cc(Cl)ccc21"
TDC_PROMPT = tdc_prompts_json[task_name].replace(input_type, drug_smiles)
print(TDC_PROMPT)
生成的提示符合模型预期格式:
指令:回答以下药物属性问题。
背景:作为分隔循环血液与脑细胞外液的屏障,血脑屏障(BBB)会阻挡多数外来药物。因此药物穿透该屏障的能力是中枢神经系统药物开发的关键挑战。
问题:给定药物SMILES字符串,预测其
(A) 不能穿透BBB (B) 能穿透BBB
药物SMILES:CN1C(=O)CN=C(C2=CCCCC2)c2cc(Cl)ccc21
答案:
预测任务运行
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("google/txgemma-9b-predict")
model = AutoModelForCausalLM.from_pretrained(
"google/txgemma-9b-predict",
device_map="auto",
)
prompt = TDC_PROMPT
input_ids = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=8)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
或使用简化版pipeline
API:
from transformers import pipeline
pipe = pipeline(
"text-generation",
model="google/txgemma-9b-predict",
device="cuda",
)
prompt = TDC_PROMPT
outputs = pipe(prompt, max_new_tokens=8)
response = outputs[0]["generated_text"]
print(response)
示例
参考以下Colab笔记本:
架构概述
- 基于Gemma 2的解码器架构Transformer
- 基础模型:Gemma 2(2B/9B/27B参数版)
- 微调数据:治疗数据共享库的多样化指令数据集
- 训练方法:治疗数据(TxT)与通用指令数据的混合微调(对话版)
- 对话变体:TxGemma-Chat(9B/27B)保持对话能力
技术规格
性能验证
在TDC的66项治疗任务基准测试中验证:
- 综合提升:45/66任务超越原Tx-LLM论文
- 顶尖性能:50/66任务达到或超越最佳水平,26项超越专业模型(详见论文表A.11)
输入输出
- 输入: 文本(建议按TDC结构格式化,含指令/背景/问题/示例)。支持SMILES字符串、氨基酸序列、核苷酸序列和自然语言。
- 输出: 文本
数据集详情
训练数据
治疗数据共享库:涵盖66项治疗开发任务的指令微调数据集,包含1500万+跨生物医学实体的数据点。发布模型仅使用商业许可数据集训练。
通用指令数据:用于TxGemma-Chat的混合训练。
评估数据
治疗数据共享库:采用与训练相同的66项任务,遵循TDC推荐的数据划分方法(随机/骨架/冷启动/组合/时间)。
许可
使用受健康AI开发者基础条款约束。
实现信息
软件
使用JAX框架训练,充分利用TPU等硬件加速。
使用限制
适用范围
优势
- 广泛任务中的卓越表现
- 相比大模型的数据高效性
- 私有数据微调的基础
- 智能体工作流集成
限制
- 基于TDC公开数据训练
- 下游应用需进行任务特异性验证
- 开发者需确保应用场景的数据代表性(如年龄/性别/条件/设备等)
引用
@article{wang2025txgemma,
title={TxGemma: Efficient and Agentic LLMs for Therapeutics},
author={Wang, Eric and Schmidgall, Samuel and Jaeger, Paul F. and Zhang, Fan and Pilgrim, Rory and Matias, Yossi and Barral, Joelle and Fleet, David and Azizi, Shekoofeh},
year={2025},
}
论文链接:https://arxiv.org/abs/2504.06196