模型简介
模型特点
模型能力
使用案例
🚀 MedGemma模型
MedGemma是一系列基于Gemma 3的模型变体,针对医学文本和图像理解进行了训练。开发者可以借助MedGemma加速构建基于医疗保健的人工智能应用程序。
🚀 快速开始
本地运行模型
以下是一些示例代码片段,可帮助你快速在GPU上本地运行该模型。如果你想大规模使用该模型,建议使用Model Garden创建生产版本。
首先,安装Transformers库。从transformers 4.50.0版本开始支持Gemma 3。
$ pip install -U transformers
使用pipeline
API运行模型
from transformers import pipeline
from PIL import Image
import requests
import torch
pipe = pipeline(
"image-text-to-text",
model="google/medgemma-4b-it",
torch_dtype=torch.bfloat16,
device="cuda",
)
# Image attribution: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are an expert radiologist."}]
},
{
"role": "user",
"content": [
{"type": "text", "text": "Describe this X-ray"},
{"type": "image", "image": image}
]
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
直接运行模型
# pip install accelerate
from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image
import requests
import torch
model_id = "google/medgemma-4b-it"
model = AutoModelForImageTextToText.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)
# Image attribution: Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are an expert radiologist."}]
},
{
"role": "user",
"content": [
{"type": "text", "text": "Describe this X-ray"},
{"type": "image", "image": image}
]
}
]
inputs = processor.apply_chat_template(
messages, add_generation_prompt=True, tokenize=True,
return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=200, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
使用示例
有关如何使用MedGemma的示例,请参阅以下Colab笔记本:
- 若要快速尝试该模型,可使用Hugging Face的权重在本地运行,参见Colab中的快速入门笔记本。请注意,若要在不进行量化的情况下运行27B模型,你需要使用Colab Enterprise。
- 若要了解模型微调的示例,请参阅Colab中的微调笔记本。
✨ 主要特性
- 多模态能力:MedGemma 4B结合了文本和视觉模态,可处理医学图像和文本;MedGemma 27B专注于医学文本处理。
- 高性能表现:在多种临床相关基准测试中表现出色,优于基础的Gemma 3模型。
- 可微调性:开发者可以使用自己的专有数据对MedGemma模型进行微调,以满足特定任务或解决方案的需求。
📦 安装指南
安装Transformers库,从transformers 4.50.0版本开始支持Gemma 3。
$ pip install -U transformers
📚 详细文档
模型信息
描述
MedGemma是一系列基于Gemma 3的变体,针对医学文本和图像理解进行了训练。开发者可以使用MedGemma加速构建基于医疗保健的人工智能应用程序。目前,MedGemma有两种变体:4B多模态版本和27B纯文本版本。
MedGemma 4B使用了一个经过专门预训练的SigLIP图像编码器,该编码器在多种去识别化的医学数据上进行了预训练,包括胸部X光片、皮肤病学图像、眼科图像和组织病理学切片。其大语言模型(LLM)组件在多样化的医学数据上进行了训练,包括放射学图像、组织病理学切片、眼科图像和皮肤病学图像。
MedGemma 4B有预训练(后缀:-pt
)和指令微调(后缀 -it
)两个版本。对于大多数应用程序来说,指令微调版本是更好的起点。预训练版本在MIMIC风格的胸部X光报告生成任务中表现更佳。
MedGemma 27B仅在医学文本上进行了训练,并针对推理时的计算进行了优化。MedGemma 27B仅作为指令微调模型提供。
MedGemma变体在一系列临床相关基准测试中进行了评估,以展示其基线性能。这些基准测试包括开放基准数据集和精心策划的数据集。开发者可以对MedGemma变体进行微调以提高性能。有关更多详细信息,请参阅下面的预期用途部分。
完整的技术报告即将发布。
模型架构概述
MedGemma模型基于Gemma 3构建,使用与Gemma 3相同的仅解码器Transformer架构。有关架构的更多信息,请参阅Gemma 3的模型卡片。
技术规格
属性 | 详情 |
---|---|
模型类型 | 仅解码器Transformer架构,参见Gemma 3技术报告 |
模态 | 4B:文本、视觉;27B:仅文本 |
注意力机制 | 采用分组查询注意力(GQA) |
上下文长度 | 支持长上下文,至少128K个标记 |
关键出版物 | 即将发布 |
模型创建时间 | 2025年5月20日 |
模型版本 | 1.0.0 |
输入和输出
输入:
- 文本字符串,如问题或提示
- 图像,归一化为896 x 896分辨率,每个图像编码为256个标记
- 总输入长度为128K个标记
输出:
- 针对输入生成的文本,如问题的答案、图像内容的分析或文档的摘要
- 总输出长度为8192个标记
性能和验证
MedGemma在多种不同的多模态分类、报告生成、视觉问答和基于文本的任务中进行了评估。
成像评估
MedGemma 4B的多模态性能在一系列基准测试中进行了评估,重点关注放射学、皮肤病学、组织病理学、眼科和多模态临床推理。
在所有测试的多模态健康基准测试中,MedGemma 4B的表现均优于基础的Gemma 3 4B模型。
任务和指标 | MedGemma 4B | Gemma 3 4B |
---|---|---|
医学图像分类 | ||
MIMIC CXR - 前5种病症的平均F1值 | 88.9 | 81.1 |
CheXpert CXR - 前5种病症的平均F1值 | 48.1 | 31.2 |
DermMCQA* - 准确率 | 71.8 | 42.6 |
视觉问答 | ||
SlakeVQA(放射学) - 标记化F1值 | 62.3 | 38.6 |
VQA-Rad**(放射学) - 标记化F1值 | 49.9 | 38.6 |
PathMCQA(组织病理学,内部***) - 准确率 | 69.8 | 37.1 |
知识和推理 | ||
MedXpertQA(文本 + 多模态问题) - 准确率 | 18.8 | 16.4 |
*基于参考文献,每个示例以4选1的多项选择题形式呈现,用于皮肤病症分类。
**在平衡分割上,参见参考文献。
***基于多个数据集,每个示例以3 - 9选1的多项选择题形式呈现,用于乳腺癌、宫颈癌和前列腺癌的识别、分级和亚型分类。
胸部X光报告生成
使用RadGraph F1指标,在MIMIC-CXR上评估了MedGemma胸部X光(CXR)报告生成的性能。我们将MedGemma预训练检查点与我们之前用于CXR报告生成的最佳模型PaliGemma 2进行了比较。
指标 | MedGemma 4B(预训练) | PaliGemma 2 3B(针对CXR进行微调) | PaliGemma 2 10B(针对CXR进行微调) |
---|---|---|---|
胸部X光报告生成 | |||
MIMIC CXR - RadGraph F1值 | 29.5 | 28.8 | 29.5 |
由于与MIMIC真实报告的报告风格存在差异,MedGemma 4B和Gemma 3 4B的指令微调版本得分较低(分别为0.22和0.12)。在MIMIC报告上进行进一步微调将使用户能够获得更好的性能。
文本评估
在一系列纯文本医学知识和推理基准测试中,对MedGemma 4B和纯文本MedGemma 27B进行了评估。
在所有测试的纯文本健康基准测试中,MedGemma模型的表现均优于其各自的基础Gemma模型。
指标 | MedGemma 27B | Gemma 3 27B | MedGemma 4B | Gemma 3 4B |
---|---|---|---|---|
MedQA(4选1) | 89.8(最佳5选1) 87.7(零样本) | 74.9 | 64.4 | 50.7 |
MedMCQA | 74.2 | 62.6 | 55.7 | 45.4 |
PubMedQA | 76.8 | 73.4 | 73.4 | 68.4 |
MMLU Med(纯文本) | 87.0 | 83.3 | 70.0 | 67.2 |
MedXpertQA(文本 + 多模态问题) | 26.7 | 15.7 | 14.2 | 11.6 |
AfriMed-QA | 84.0 | 72.0 | 52.0 | 48.0 |
对于所有MedGemma 27B的结果,使用了测试时缩放来提高性能。
伦理和安全评估
评估方法
我们的评估方法包括结构化评估和对相关内容政策的内部红队测试。红队测试由多个不同的团队进行,每个团队有不同的目标和人工评估指标。这些模型针对与伦理和安全相关的多个不同类别进行了评估,包括:
- 儿童安全:评估涵盖儿童安全政策的文本到文本和图像到文本提示,包括儿童性虐待和剥削。
- 内容安全:评估涵盖安全政策的文本到文本和图像到文本提示,包括骚扰、暴力和血腥内容以及仇恨言论。
- 代表性危害:评估涵盖安全政策的文本到文本和图像到文本提示,包括偏见、刻板印象以及有害关联或不准确信息。
- 一般医疗危害:评估涵盖安全政策的文本到文本和图像到文本提示,包括信息质量以及有害关联或不准确信息。
除了开发阶段的评估,我们还进行“保证评估”,这是我们用于责任治理决策的“独立”内部评估。这些评估与模型开发团队分开进行,以提供有关模型发布的决策依据。高层级的评估结果会反馈给模型团队,但提示集不会公开,以防止过拟合并确保评估结果能够为决策提供有效信息。显著的保证评估结果会作为发布审查的一部分报告给我们的责任与安全委员会。
评估结果
在所有安全测试领域,我们在儿童安全、内容安全和代表性危害等类别中都看到了安全水平的表现。所有测试均在没有安全过滤器的情况下进行,以评估模型的能力和行为。对于文本到文本、图像到文本和音频到文本,以及MedGemma的两种模型规模,模型产生的政策违规情况极少。我们评估的一个局限性是,评估主要包括英语提示。
数据卡片
数据集概述
训练
基础Gemma模型在大量的文本和代码语料库上进行了预训练。MedGemma 4B使用了一个经过专门预训练的SigLIP图像编码器,该编码器在多种去识别化的医学数据上进行了预训练,包括放射学图像、组织病理学图像、眼科图像和皮肤病学图像。其大语言模型(LLM)组件在多样化的医学数据上进行了训练,包括与放射学图像、胸部X光片、组织病理学切片、眼科图像和皮肤病学图像相关的医学文本。
评估
MedGemma模型在一组全面的临床相关基准测试中进行了评估,包括跨越5个不同任务和6种医学图像模态的22个以上数据集。这些数据集包括开放基准数据集和精心策划的数据集,重点是对胸部X光报告生成和放射学视觉问答等任务进行专家人工评估。
来源
MedGemma使用了公共数据集和私有数据集的组合。
该模型在多种公共数据集上进行了训练,包括MIMIC-CXR(胸部X光片和报告)、Slake-VQA(多模态医学图像和问题)、PAD-UFES-20(皮肤病病变图像和数据)、SCIN(皮肤病学图像)、TCGA(癌症基因组学数据)、CAMELYON(淋巴结组织病理学图像)、PMC-OA(带有图像的生物医学文献)和Mendeley Digital Knee X-Ray(膝盖X光片)。
此外,还使用了多个不同的专有数据集,这些数据集已获得许可并纳入模型训练(详见下文)。
数据所有权和文档
- Mimic-CXR:由麻省理工学院计算生理学实验室和贝斯以色列女执事医疗中心(BIDMC)拥有。
- Slake-VQA:由香港理工大学(PolyU)拥有,与四川大学华西医院和四川省医学科学院/四川省人民医院等合作。
- PAD-UFES-20:由巴西圣埃斯皮里图联邦大学(UFES)通过其皮肤病学和外科援助计划(PAD)拥有。
- SCIN:由Google Health和斯坦福大学医学院合作拥有。
- TCGA(癌症基因组图谱):由美国国家癌症研究所和国家人类基因组研究所共同努力创建。TCGA的数据可通过基因组数据公共库(GDC)获取。
- CAMELYON:数据由荷兰拉德堡德大学医学中心和乌得勒支大学医学中心收集。
- PMC-OA(PubMed Central开放获取子集):由美国国立医学图书馆(NLM)和国家生物技术信息中心(NCBI)维护,它们是美国国立卫生研究院(NIH)的一部分。
- MedQA:该数据集由Di Jin、Eileen Pan、Nassim Oufattole、Wei-Hung Weng、Hanyi Fang和Peter Szolovits领导的研究团队创建。
- Mendeley Digital Knee X-Ray:该数据集来自拉尼·钱纳马大学,并托管在Mendeley Data上。
- AfriMed-QA:该数据由多个合作组织和研究人员开发和主导,包括关键贡献者:Intron Health、SisonkeBiotik、BioRAMP、佐治亚理工学院和MasakhaneNLP。
- VQA-RAD:该数据集由Jason J. Lau、Soumya Gayen、Asma Ben Abacha和Dina Demner-Fushman领导的研究团队及其附属机构(美国国家医学图书馆和美国国立卫生研究院)创建。
- MedExpQA:该数据集由HiTZ中心(巴斯克语言技术和人工智能中心)的研究人员创建。
- MedXpertQA:该数据集由清华大学(中国北京)和上海人工智能实验室(中国上海)的研究人员开发。
除了上述公共数据集外,MedGemma还在为研究目的而许可使用的去识别化数据集或Google内部从同意参与的参与者那里收集的数据上进行了训练。
- 放射学数据集1:来自美国一家放射学门诊诊断中心网络的不同身体部位CT研究的去识别化数据集。
- 眼科数据集1:来自糖尿病视网膜病变筛查的眼底图像去识别化数据集。
- 皮肤病学数据集1:来自哥伦比亚的远程皮肤病学皮肤病症图像(临床和皮肤镜检查)去识别化数据集。
- 皮肤病学数据集2:来自澳大利亚的皮肤癌图像(临床和皮肤镜检查)去识别化数据集。
- 皮肤病学数据集3:通过内部数据收集工作获得的非疾病皮肤图像去识别化数据集。
- 病理学数据集1:与欧洲一家学术研究医院和生物样本库合作创建的组织病理学H&E全切片图像去识别化数据集。包括去识别化的结肠、前列腺和淋巴结。
- 病理学数据集2:由美国一家商业生物样本库创建的肺部组织病理学H&E和IHC全切片图像去识别化数据集。
- 病理学数据集3:由美国一家合同研究组织创建的前列腺和淋巴结H&E和IHC组织病理学全切片图像去识别化数据集。
- 病理学数据集4:与美国一家大型三级教学医院合作创建的主要为H&E全切片图像的组织病理学去识别化数据集。包括多种组织和染色类型,主要是H&E。
数据引用
- MIMIC-CXR Johnson, A., Pollard, T., Mark, R., Berkowitz, S., & Horng, S. (2024). MIMIC-CXR Database (version 2.1.0). PhysioNet.
- Johnson, A.E.W., Pollard, T.J., Berkowitz, S.J. et al. MIMIC-CXR, a de-identified publicly available database of chest radiographs with free-text reports. Sci Data 6, 317 (2019).
- Available on Physionet Goldberger, A., Amaral, L., Glass, L., Hausdorff, J., Ivanov, P. C., Mark, R., ... & Stanley, H. E. (2000). PhysioBank, PhysioToolkit, and PhysioNet: Components of a new research resource for complex physiologic signals. Circulation [Online]. 101 (23), pp. E215–e220.
- Bo Liu, Li-Ming Zhan, etc. SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering.
- PAD-UFES-20: A skin lesion dataset composed of patient data and clinical images collected from smartphones
- The Cancer Genome Atlas Program (TCGA)
- Babak Ehteshami Bejnordi, etc.: Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer
- MedQA: https://arxiv.org/abs/2009.13081
- Mendeley Digital Knee X-Ray: Gornale, Shivanand; Patravali, Pooja (2020), "Digital Knee X-ray Images", Mendeley Data, V1, doi: 10.17632/t9ndx37v5h.1
- AfriMed-QA: https://arxiv.org/abs/2411.15640
- VQA-RAD: Lau, J., Gayen, S., Ben Abacha, A. et al. A dataset of clinically generated visual questions and answers about radiology images. Sci Data 5, 180251 (2018). https://doi.org/10.1038/sdata.2018.251
- MedExpQA: Multilingual benchmarking of Large Language Models for Medical Question Answering
- MedXpertQA: arXiv:2501.18362v2
去识别化/匿名化
Google及其合作伙伴使用经过严格匿名化或去识别化处理的数据集,以确保保护个体研究参与者和患者的隐私。
实现信息
软件
训练使用了JAX。
JAX使研究人员能够利用最新一代的硬件,包括张量处理单元(TPU),以更快、更高效地训练大型模型。
🔧 技术细节
模型架构
MedGemma模型基于Gemma 3构建,使用与Gemma 3相同的仅解码器Transformer架构。
技术规格
- 模型类型:仅解码器Transformer架构,参见Gemma 3技术报告
- 模态:4B版本支持文本和视觉模态;27B版本仅支持文本模态。
- 注意力机制:采用分组查询注意力(GQA)
- 上下文长度:支持长上下文,至少128K个标记
📄 许可证
MedGemma的使用受Health AI Developer Foundations使用条款的约束。
若要在Hugging Face上访问MedGemma,你需要审查并同意Health AI Developer Foundation的使用条款。请确保你已登录Hugging Face,然后点击下方按钮。请求将立即处理。
引用
技术报告即将发布。在此期间,如果你使用此模型进行发表,请引用Hugging Face模型页面:
@misc{medgemma-hf,
author = {Google},
title = {MedGemma Hugging Face},
howpublished = {\url{https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4}},
year = {2025},
note = {Accessed: [Insert Date Accessed, e.g., 2025-05-20]}
}
使用和限制
预期用途
MedGemma是一个开放的多模态生成式人工智能模型,旨在作为一个起点,使开发者能够更高效地开发涉及医学文本和图像的下游医疗保健应用程序。MedGemma适用于生命科学和医疗保健领域的开发者。开发者负责对MedGemma进行训练、调整和有意义的修改,以实现其特定的预期用途。开发者可以使用自己的专有数据对MedGemma模型进行微调,以满足特定任务或解决方案的需求。
MedGemma基于Gemma 3构建,并在医学图像和文本上进行了进一步训练。MedGemma可以在任何医学环境(图像和文本)中进行进一步开发,不过该模型是使用胸部X光片、病理学、皮肤病学和眼底图像进行预训练的。MedGemma训练范围内的任务示例包括针对医学图像(如X光片)的视觉问答,或回答文本医学问题。所有MedGemma已评估任务的完整详细信息可在即将发布的技术报告中找到。
优势
- 为同规模的模型提供强大的医学图像和文本理解基线。
- 与未进行医学数据预训练的类似规模模型相比,这种强大的性能使其能够更高效地适应下游基于医疗保健的用例。
- 根据用例、基线验证要求和所需的性能特征,这种适应可能涉及提示工程、基础模型调整、智能体编排或微调。
限制
在开发者未针对其特定用例进行适当验证、调整和/或进行有意义的修改之前,MedGemma不应用于实际场景。MedGemma生成的输出不应用于直接指导临床诊断、患者管理决策、治疗建议或任何其他直接临床实践应用。性能基准测试展示了模型在相关基准上的基线能力,但即使对于构成训练数据很大一部分的图像和文本领域,模型输出也可能不准确。所有来自MedGemma的输出都应被视为初步结果,需要通过既定的研究和开发方法进行独立验证、临床相关性分析和进一步调查。
MedGemma的多模态能力主要在单图像任务上进行了评估。该模型尚未在涉及多图像理解的用例中进行评估。
MedGemma尚未在多轮对话应用中进行评估或优化。
与Gemma 3相比,MedGemma的训练可能使其对所使用的特定提示更加敏感。
开发者在调整MedGemma时应考虑以下几点:
- 验证数据中的偏差:与任何研究一样,开发者应确保任何下游应用都使用能够适当代表特定应用预期使用场景的数据进行验证(例如,年龄、性别、病症、成像设备等),以了解模型的性能。
- 数据污染问题:在评估像MedGemma这样的大型模型在医学环境中的泛化能力时,存在数据污染的风险,即模型可能在预训练过程中无意中看到了相关的医学信息,从而可能高估了其对新医学概念的泛化能力。开发者应在未公开或未向非机构研究人员提供的数据集上对MedGemma进行验证,以降低这种风险。








