模型简介
模型特点
模型能力
使用案例
许可证:其他 许可证名称:健康AI开发者基础条款 许可证链接:https://developers.google.com/health-ai-developer-foundations/terms 库名称:transformers 管道标签:图像文本到文本 额外授权标题:在Hugging Face上访问MedGemma 额外授权提示:>- 要在Hugging Face上访问MedGemma,您需要查看并同意健康AI开发者基础使用条款。 为此,请确保您已登录Hugging Face并点击下方按钮。 请求将立即处理。 额外授权按钮内容:确认许可证 基础模型:
- google/medgemma-4b-it 标签:
- 医疗
- unsloth
- 放射学
- 临床推理
- 皮肤科
- 病理学
- 眼科
- 胸部X光
Unsloth Dynamic 2.0实现了卓越的准确性,并优于其他领先的量化方法。
MedGemma模型卡
模型文档: MedGemma
资源:
- 谷歌云模型花园中的模型: MedGemma
- Hugging Face上的模型: MedGemma
- GitHub仓库(支持代码、Colab笔记本、讨论和问题): MedGemma
- 快速入门笔记本: GitHub
- 微调笔记本: GitHub
- 使用MedGemma构建的患者教育演示
- 支持: 参见联系
- 许可证: MedGemma的使用受健康AI开发者基础使用条款约束。
作者: 谷歌
模型信息
本节介绍MedGemma模型及其使用方法。
描述
MedGemma是一组基于Gemma 3的变体,专为医学文本和图像理解性能而训练。开发者可以使用MedGemma加速构建基于医疗健康的AI应用。MedGemma目前有两种变体:4B多模态版本和27B纯文本版本。
MedGemma 4B采用了一个SigLIP图像编码器,该编码器专门针对多种去标识化的医学数据进行了预训练,包括胸部X光、皮肤科图像、眼科图像和组织病理学切片。其LLM组件则训练于多样化的医学数据,包括放射学图像、组织病理学切片、眼科图像和皮肤科图像。
MedGemma 4B提供预训练(后缀:-pt
)和指令调优(后缀:-it
)两个版本。指令调优版本是大多数应用的更好起点。预训练版本在MIMIC风格的胸部X光报告生成上表现尤为突出。
MedGemma 27B仅训练于医学文本,并针对推理时计算进行了优化。MedGemma 27B仅提供指令调优版本。
MedGemma变体已在多个临床相关基准上进行了评估,以展示其基线性能。这些基准包括公开数据集和精选数据集。开发者可以微调MedGemma变体以提升性能。更多细节请参阅下文“预期用途”部分。
完整技术报告即将发布。
使用方法
以下是一些示例代码片段,帮助您快速在GPU上本地运行模型。如需大规模使用模型,建议通过Model Garden创建生产版本。
首先安装Transformers库。Gemma 3需要transformers 4.50.0及以上版本。
$ pip install -U transformers
使用pipeline
API运行模型
from transformers import pipeline
from PIL import Image
import requests
import torch
pipe = pipeline(
"image-text-to-text",
model="google/medgemma-4b-it",
torch_dtype=torch.bfloat16,
device="cuda",
)
# 图片来源:Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "您是一名专业的放射科医生。"}]
},
{
"role": "user",
"content": [
{"type": "text", "text": "描述这张X光片"},
{"type": "image", "image": image},
]
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
直接运行模型
# pip install accelerate
from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image
import requests
import torch
model_id = "google/medgemma-4b-it"
model = AutoModelForImageTextToText.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)
# 图片来源:Stillwaterising, CC0, via Wikimedia Commons
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "您是一名专业的放射科医生。"}]
},
{
"role": "user",
"content": [
{"type": "text", "text": "描述这张X光片"},
{"type": "image", "image": image}
]
}
]
inputs = processor.apply_chat_template(
messages, add_generation_prompt=True, tokenize=True,
return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=200, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
示例
查看以下Colab笔记本了解如何使用MedGemma:
-
快速尝试模型,使用Hugging Face的权重本地运行,参见Colab快速入门笔记本。注意,运行27B模型需要Colab Enterprise且不进行量化。
-
微调模型示例,参见Colab微调笔记本。
模型架构概述
MedGemma模型基于Gemma 3构建,采用与Gemma 3相同的仅解码器Transformer架构。更多架构细节,请参阅Gemma 3模型卡。
技术规格
- 模型类型: 仅解码器Transformer架构,参见Gemma 3技术报告
- 模态: 4B: 文本、视觉;27B: 仅文本
- 注意力机制: 使用分组查询注意力(GQA)
- 上下文长度: 支持长上下文,至少128K tokens
- 关键出版物: 即将发布
- 模型创建时间: 2025年5月20日
- 模型版本: 1.0.0
引用
技术报告即将发布。在此期间,如果您使用此模型发表成果,请引用Hugging Face模型页面:
@misc{medgemma-hf,
author = {Google},
title = {MedGemma Hugging Face}
howpublished = {\url{https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4}},
year = {2025},
note = {访问日期: [插入访问日期,例如2025-05-20]}
}
输入和输出
输入:
- 文本字符串,如问题或提示
- 图像,归一化为896 x 896分辨率并编码为256 tokens
- 总输入长度128K tokens
输出:
- 生成的文本响应,如问题答案、图像内容分析或文档摘要
- 总输出长度8192 tokens
性能和验证
MedGemma在多种多模态分类、报告生成、视觉问答和基于文本的任务上进行了评估。
关键性能指标
影像评估
MedGemma 4B的多模态性能在多个基准上进行了评估,重点关注放射学、皮肤科、组织病理学、眼科和多模态临床推理。
MedGemma 4B在所有测试的多模态健康基准上均优于基础Gemma 3 4B模型。
任务和指标 | MedGemma 4B | Gemma 3 4B |
---|---|---|
医学图像分类 | ||
MIMIC CXR - 前5种条件的平均F1 | 88.9 | 81.1 |
CheXpert CXR - 前5种条件的平均F1 | 48.1 | 31.2 |
DermMCQA* - 准确率 | 71.8 | 42.6 |
视觉问答 | ||
SlakeVQA(放射学)- Tokenized F1 | 62.3 | 38.6 |
VQA-Rad**(放射学)- Tokenized F1 | 49.9 | 38.6 |
PathMCQA(组织病理学,内部***)- 准确率 | 69.8 | 37.1 |
知识和推理 | ||
MedXpertQA(文本+多模态问题)- 准确率 | 18.8 | 16.4 |
*基于参考文献,每个示例为4选1的皮肤状况分类多选题。
**平衡分割,参见参考文献。
***基于多个数据集,每个示例为3-9选1的乳腺癌、宫颈癌和前列腺癌的识别、分级和亚型分类多选题。
胸部X光报告生成
MedGemma胸部X光(CXR)报告生成性能在MIMIC-CXR上使用RadGraph F1指标进行评估。我们将MedGemma预训练检查点与我们之前最佳的CXR报告生成模型PaliGemma 2进行比较。
指标 | MedGemma 4B(预训练) | PaliGemma 2 3B(针对CXR调优) | PaliGemma 2 10B(针对CXR调优) |
---|---|---|---|
胸部X光报告生成 | |||
MIMIC CXR - RadGraph F1 | 29.5 | 28.8 | 29.5 |
由于报告风格与MIMIC真实报告的差异,MedGemma 4B和Gemma 3 4B的指令调优版本得分较低(分别为0.22和0.12)。在MIMIC报告上进一步微调将帮助用户提升性能。
文本评估
MedGemma 4B和纯文本MedGemma 27B在多个仅文本的医学知识和推理基准上进行了评估。
MedGemma模型在所有测试的仅文本健康基准上均优于各自的基础Gemma模型。
指标 | MedGemma 27B | Gemma 3 27B | MedGemma 4B | Gemma 3 4B |
---|---|---|---|---|
MedQA(4选1) | 89.8(5选最佳) 87.7(0-shot) | 74.9 | 64.4 | 50.7 |
MedMCQA | 74.2 | 62.6 | 55.7 | 45.4 |
PubMedQA | 76.8 | 73.4 | 73.4 | 68.4 |
MMLU Med(仅文本) | 87.0 | 83.3 | 70.0 | 67.2 |
MedXpertQA(仅文本) | 26.7 | 15.7 | 14.2 | 11.6 |
AfriMed-QA | 84.0 | 72.0 | 52.0 | 48.0 |
所有MedGemma 27B结果均使用测试时缩放提升性能。
伦理和安全评估
评估方法
我们的评估方法包括结构化评估和内部红队测试相关内容政策。红队测试由多个团队进行,每个团队有不同的目标和人工评估指标。这些模型针对多个伦理和安全相关类别进行了评估,包括:
- 儿童安全: 评估文本到文本和图像到文本提示,涵盖儿童安全政策,包括儿童性虐待和剥削。
- 内容安全: 评估文本到文本和图像到文本提示,涵盖安全政策,包括骚扰、暴力和仇恨言论。
- 代表性危害: 评估文本到文本和图像到文本提示,涵盖安全政策,包括偏见、刻板印象和有害关联或不准确。
- 一般医疗危害: 评估文本到文本和图像到文本提示,涵盖安全政策,包括信息质量和有害关联或不准确。
除开发级评估外,我们还进行“保证评估”,即我们的“独立”内部评估,用于责任治理决策。这些评估与模型开发团队分开进行,以告知发布决策。高层发现反馈给模型团队,但提示集被保留以防止过拟合并保留结果对决策的参考能力。重要的保证评估结果报告给我们的责任与安全委员会作为发布审查的一部分。
评估结果
在所有安全测试领域,我们在儿童安全、内容安全和代表性危害类别中看到了安全水平的性能。所有测试均在无安全过滤器的情况下进行,以评估模型能力和行为。对于文本到文本、图像到文本和音频到文本,以及两种MedGemma模型大小,模型产生的政策违规极少。我们评估的一个限制是主要包含英语提示。
数据卡
数据集概述
训练
基础Gemma模型在大量文本和代码数据上进行了预训练。MedGemma 4B使用了一个SigLIP图像编码器,该编码器专门针对多种去标识化的医学数据进行了预训练,包括放射学图像、组织病理学图像、眼科图像和皮肤科图像。其LLM组件训练于多样化的医学数据,包括与放射学图像、胸部X光、组织病理学切片、眼科图像和皮肤科图像相关的医学文本。
评估
MedGemma模型已在全面的临床相关基准上进行了评估,包括超过22个数据集,涵盖5个不同任务和6种医学图像模态。这些包括公开基准数据集和精选数据集,重点关注专家人工评估任务,如CXR报告生成和放射学VQA。
来源
MedGemma使用了公共和私有数据集的组合。
该模型训练于多种公共数据集,包括MIMIC-CXR(胸部X光和报告)、Slake-VQA(多模态医学图像和问题)、PAD-UFES-20(皮肤病变图像和数据)、SCIN(皮肤科图像)、TCGA(癌症基因组数据)、CAMELYON(淋巴结组织病理学图像)、PMC-OA(带图像的生物医学文献)和Mendeley Digital Knee X-Ray(膝盖X光)。
此外,还整合了多个多样化的专有数据集(如下所述)。
数据所有权和文档
- Mimic-CXR: MIT计算生理学实验室和Beth Israel Deaconess医疗中心(BIDMC)。
- Slake-VQA: 香港理工大学(PolyU),合作方包括四川大学华西医院和四川省医学科学院/四川省人民医院。
- PAD-UFES-20: 巴西圣埃斯皮里图联邦大学(UFES),通过其皮肤科和外科援助计划(PAD)。
- SCIN: 谷歌健康与斯坦福医学院的合作项目。
- TCGA(癌症基因组图谱): 美国国家癌症研究所和国家人类基因组研究所的联合项目。TCGA数据可通过基因组数据共享(GDC)获取。
- CAMELYON: 数据收集自荷兰Radboud大学医学中心和乌得勒支大学医学中心。
- PMC-OA(PubMed Central开放获取子集): 由美国国家医学图书馆(NLM)和国家生物技术信息中心(NCBI)维护,隶属于NIH。
- MedQA: 该数据集由Di Jin、Eileen Pan、Nassim Oufattole、Wei-Hung Weng、Hanyi Fang和Peter Szolovits领导的研究团队创建。
- Mendeley Digital Knee X-Ray: 该数据集来自Rani Channamma大学,托管于Mendeley Data。
- AfriMed-QA: 该数据由多个合作组织和研究人员开发,主要贡献者包括:Intron Health、SisonkeBiotik、BioRAMP、乔治亚理工学院和MasakhaneNLP。
- VQA-RAD: 该数据集由Jason J. Lau、Soumya Gayen、Asma Ben Abacha和Dina Demner-Fushman及其所属机构(美国国家医学图书馆和国家卫生研究院)的研究团队创建。
- MedExpQA: 该数据集由HiTZ中心(巴斯克语言技术和人工智能中心)的研究人员创建。
- MedXpertQA: 该数据集由清华大学(中国北京)和上海人工智能实验室(中国上海)的研究人员开发。
除上述公共数据集外,MedGemma还训练于去标识化的数据集,这些数据集已获研究许可或由谷歌从同意参与者处内部收集。
- 放射学数据集1: 来自美国放射学门诊诊断中心网络的不同CT研究的去标识化数据集。
- 眼科数据集1: 来自糖尿病视网膜病变筛查的眼底图像去标识化数据集。
- 皮肤科数据集1: 来自哥伦比亚远程皮肤科皮肤状况图像(临床和皮肤镜)的去标识化数据集。
- 皮肤科数据集2: 来自澳大利亚皮肤癌图像(临床和皮肤镜)的去标识化数据集。
- 皮肤科数据集3: 来自内部数据收集工作的非病变皮肤图像的去标识化数据集。
- 病理学数据集1: 与欧洲学术研究医院和生物库合作创建的组织病理学H&E全切片图像的去标识化数据集。包括去标识化的结肠、前列腺和淋巴结。
- 病理学数据集2: 由美国商业生物库创建的肺组织病理学H&E和IHC全切片图像的去标识化数据集。
- 病理学数据集3: 由美国合同研究组织创建的前列腺和淋巴结H&E和IHC组织病理学全切片图像的去标识化数据集。
- 病理学数据集4: 与美国大型三级教学医院合作创建的组织病理学(主要为H&E全切片图像)的去标识化数据集。包括多种组织和染色类型,主要为H&E。
数据引用
- MIMIC-CXR Johnson, A., Pollard, T., Mark, R., Berkowitz, S., & Horng, S. (2024). MIMIC-CXR Database (version 2.1.0). PhysioNet.
- Johnson, A.E.W., Pollard, T.J., Berkowitz, S.J. et al. MIMIC-CXR, a de-identified publicly available database of chest radiographs with free-text reports. Sci Data 6, 317 (2019).
- Available on Physionet Goldberger, A., Amaral, L., Glass, L., Hausdorff, J., Ivanov, P. C., Mark, R., ... & Stanley, H. E. (2000). PhysioBank, PhysioToolkit, and PhysioNet: Components of a new research resource for complex physiologic signals. Circulation [Online]. 101 (23), pp. E215–e220.
- Bo Liu, Li-Ming Zhan, etc. SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering.
- PAD-UFES-20: A skin lesion dataset composed of patient data and clinical images collected from smartphones
- The Cancer Genome Atlas Program (TCGA)
- Babak Ehteshami Bejnordi, etc.: Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer
- MedQA: https://arxiv.org/abs/2009.13081
- Mendeley Digital Knee X-Ray: Gornale, Shivanand; Patravali, Pooja (2020), "Digital Knee X-ray Images", Mendeley Data, V1, doi: 10.17632/t9ndx37v5h.1
- AfriMed-QA: https://arxiv.org/abs/2411.15640
- VQA-RAD: Lau, J., Gayen, S., Ben Abacha, A. et al. A dataset of clinically generated visual questions and answers about radiology images. Sci Data 5, 180251 (2018). https://doi.org/10.1038/sdata.2018.251
- MedExpQA: Multilingual benchmarking of Large Language Models for Medical Question Answering
- MedXpertQA: arXiv:2501.18362v2
去标识化/匿名化:
谷歌及其合作伙伴使用的数据集经过严格的匿名化或去标识化处理,以确保个体研究参与者和患者隐私的保护。
实现信息
关于模型内部的详细信息。
软件
训练使用JAX完成。
JAX允许研究人员利用最新硬件(包括TPU)更快、更高效地训练大型模型。
使用和限制
预期用途
MedGemma是一个开放的多模态生成AI模型,旨在作为起点,更高效地开发涉及医学文本和图像的医疗健康下游应用。MedGemma面向生命科学和医疗健康领域的开发者。开发者负责训练、调整并对MedGemma进行有意义的更改以实现其特定预期用途。开发者可以使用自己的专有数据对MedGemma模型进行微调,以适应其特定任务或解决方案。
MedGemma基于Gemma 3,并进一步训练于医学图像和文本。MedGemma支持任何医学上下文(图像和文本)的进一步开发,但模型预训练使用了胸部X光、病理学、皮肤科和眼底图像。MedGemma训练任务示例包括与医学图像(如放射影像)相关的视觉问答,或回答文本医学问题。MedGemma所有评估任务的完整细节将在即将发布的技术报告中提供。
优势
- 提供其规模模型的强大医学图像和文本理解基线。
- 这种强大的性能使其比未经过医学数据预训练的类似规模模型更高效地适应医疗健康下游用例。
- 根据用例、基线验证要求和期望的性能特征,这种适应可能涉及提示工程、基础化、代理编排或微调。
限制
MedGemma不适用于未经适当验证、调整和/或开发者对其特定用例进行有意义修改的情况。MedGemma生成的输出不直接用于临床诊断、患者管理决策、治疗建议或任何其他直接临床应用。性能基准突出了相关基准上的基线能力,但即使对于构成训练数据重要部分的图像和文本领域,模型输出也可能不准确。所有MedGemma的输出应视为初步结果,需要通过独立验证、临床关联和通过既定研发方法进一步调查。
MedGemma的多模态能力主要在单图像任务上进行了评估。MedGemma尚未在涉及多图像理解的用例中进行评估。
MedGemma尚未针对多轮应用进行评估或优化。
MedGemma的训练可能使其比Gemma 3对特定提示更敏感。
在调整MedGemma时,开发者应考虑以下事项:
- 验证数据中的偏见: 与任何研究一样,开发者应确保任何下游应用都经过验证,以了解在使用适当代表预期使用环境的数据(如年龄、性别、状况、成像设备等)时的性能。
- 数据污染问题: 在评估像MedGemma这样的大型模型在医学上下文中的泛化能力时,存在数据污染的风险,即模型可能在预训练期间无意中看到相关医学信息,可能高估其对新医学概念的真正泛化能力。开发者应在非公开或非机构研究人员无法获取的数据集上验证MedGemma,以减轻此风险。








