许可证:其他
许可证名称:健康AI开发者基础条款
许可证链接:https://developers.google.com/health-ai-developer-foundations/terms
语言:
- 英文
任务标签:文本生成
库名称:transformers
标签:
- 治疗学
- 药物研发
访问提示标题:在Hugging Face上访问TxGemma
访问提示内容:
要访问Hugging Face上的TxGemma,您需要阅读并同意健康AI开发者基础使用条款。请确保已登录Hugging Face账号并点击下方按钮。请求将即时处理。
访问按钮内容:确认许可证
TxGemma模型卡
模型文档:TxGemma
资源:
使用条款:健康AI开发者基础使用条款
作者: Google
模型信息
本节介绍TxGemma模型及其使用方法。
描述
TxGemma是基于Gemma 2构建的轻量级、前沿开源语言模型系列,专为治疗研发微调。提供2B、9B和27B三种规模。
TxGemma模型擅长处理小分子、蛋白质、核酸、疾病和细胞系等治疗相关信息的理解与预测任务,可作为微调基础或药物发现的交互式对话代理。模型通过治疗数据共享库(TDC)的多样化指令微调数据集从Gemma 2微调而来。
TxGemma提供两种形式:
- 预测模型(需特定格式提示)
- 对话模型(仅9B/27B版本支持多轮交互及预测解释,但会牺牲部分预测性能)。详见论文。
核心特性
- 多功能性:在66项治疗任务中表现优异
- 数据高效:小样本场景下仍具竞争力
- 对话能力(TxGemma-Chat):支持自然语言交互与推理解释
- 微调基础:可针对特定场景二次开发
应用场景
- 加速药物发现:用于靶点识别、药物-靶点相互作用预测、临床试验审批预测等
使用方法
治疗任务提示格式化
import json
from huggingface_hub import hf_hub_download
tdc_prompts_filepath = hf_hub_download(
repo_id="google/txgemma-2b-predict",
filename="tdc_prompts.json",
)
with open(tdc_prompts_filepath, "r") as f:
tdc_prompts_json = json.load(f)
task_name = "BBB_Martins"
input_type = "{Drug SMILES}"
drug_smiles = "CN1C(=O)CN=C(C2=CCCCC2)c2cc(Cl)ccc21"
TDC_PROMPT = tdc_prompts_json[task_name].replace(input_type, drug_smiles)
print(TDC_PROMPT)
输出示例:
指令:回答以下药物属性问题。
背景:血脑屏障(BBB)是阻隔外源药物的保护层,其穿透能力是中枢神经系统药物开发的关键挑战。
问题:给定药物SMILES字符串,预测其
(A) 无法穿透BBB (B) 可穿透BBB
药物SMILES: CN1C(=O)CN=C(C2=CCCCC2)c2cc(Cl)ccc21
回答:
预测任务推理
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("google/txgemma-2b-predict")
model = AutoModelForCausalLM.from_pretrained(
"google/txgemma-2b-predict",
device_map="auto",
)
input_ids = tokenizer(TDC_PROMPT, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=8)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
或使用pipeline简化流程:
from transformers import pipeline
pipe = pipeline(
"text-generation",
model="google/txgemma-2b-predict",
device="cuda",
)
outputs = pipe(TDC_PROMPT, max_new_tokens=8)
print(outputs[0]["generated_text"])
示例
架构概述
- 基础模型:Gemma 2(解码器架构)
- 微调数据:治疗数据共享库(TDC)
- 训练方法:治疗数据(TxT)与通用指令数据混合微调
- 对话版本:9B/27B模型额外融合通用指令数据
技术规格
性能验证
在TDC 66项任务基准测试中:
- 45项任务超越原Tx-LLM论文
- 50项任务达到或超越专业模型(26项显著领先)
数据集
训练数据
- 治疗数据共享库(TDC):覆盖66项任务的1500万+数据点(仅含商业许可数据集)
- 通用指令数据:用于对话版本训练
许可
遵循健康AI开发者基础条款
限制
- 基于TDC公开数据训练
- 下游应用需针对具体场景验证
- 需注意数据代表性(如年龄、性别、病情等)
引用
@article{wang2025txgemma,
title={TxGemma: Efficient and Agentic LLMs for Therapeutics},
author={Wang, Eric and Schmidgall, Samuel and Jaeger, Paul F. and Zhang, Fan and Pilgrim, Rory and Matias, Yossi and Barral, Joelle and Fleet, David and Azizi, Shekoofeh},
year={2025},
}
论文链接:https://arxiv.org/abs/2504.06196