许可证:其他
许可证名称:健康AI开发者基础条款
许可证链接:https://developers.google.com/health-ai-developer-foundations/terms
库名称:transformers
任务标签:图像文本到文本
额外访问限制标题:在Hugging Face上访问MedGemma
额外访问限制提示:
要在Hugging Face上访问MedGemma,您需要审阅并同意健康AI开发者基础使用条款。
请确保已登录Hugging Face账号并点击下方按钮。请求将立即处理。
额外访问限制按钮内容:确认许可证
基础模型:google/gemma-3-4b-pt
标签:
- 医疗
- 放射学
- 临床推理
- 皮肤病学
- 病理学
- 眼科学
- 胸部X光
MedGemma模型卡
模型文档:MedGemma
资源:
作者:Google
模型信息
本节介绍MedGemma模型及其使用方法。
描述
MedGemma是基于Gemma 3的一系列变体,专为医学文本和图像理解优化。开发者可利用MedGemma加速医疗AI应用开发。当前提供两个版本:4B多模态版和27B纯文本版。
MedGemma 4B采用专为医学数据预训练的SigLIP图像编码器,涵盖胸部X光、皮肤病图像、眼科图像和组织病理切片。其LLM组件训练数据包括放射影像、病理切片、眼科和皮肤病图像。
MedGemma 4B提供预训练版(后缀-pt
)和指令调优版(后缀-it
)。指令调优版更适合多数应用场景。预训练版供深度实验使用。
MedGemma 27B专攻医学文本,优化推理效率,仅提供指令调优版。
MedGemma已在多项临床相关基准测试中评估,涵盖公开数据集和定制数据集。开发者可通过微调进一步提升性能。完整技术报告即将发布。
使用方法
以下示例代码帮助快速在GPU上本地运行模型。大规模使用建议通过Model Garden部署生产版本。
首先安装Transformers库(Gemma 3需4.50.0及以上版本):
$ pip install -U transformers
使用pipeline
API运行模型
from transformers import pipeline
from PIL import Image
import requests
import torch
pipe = pipeline(
"image-text-to-text",
model="google/medgemma-4b-pt",
torch_dtype=torch.bfloat16,
device="cuda",
)
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw
output = pipe(
images=image,
text="<start_of_image> findings:",
max_new_tokens=100,
)
print(output[0]["generated_text"])
直接运行模型
from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image
import requests
import torch
model_id = "google/medgemma-4b-pt"
model = AutoModelForImageTextToText.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)
image_url = "https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png"
image = Image.open(
requests.get(image_url, headers={"User-Agent": "example"}, stream=True).raw
).convert("RGB")
prompt = "<start_of_image> findings:"
inputs = processor(
text=prompt, images=image, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
示例
参考以下Colab笔记本:
- 快速体验模型(本地运行Hugging Face权重):快速入门笔记本(注意:27B模型需使用Colab Enterprise非量化版本)
- 微调示例:微调笔记本
模型架构
MedGemma基于Gemma 3的仅解码器Transformer架构,详情参见Gemma 3模型卡。
技术规格
- 模型类型:仅解码器Transformer架构(参见Gemma 3技术报告)
- 模态:4B:文本+视觉;27B:仅文本
- 注意力机制:分组查询注意力(GQA)
- 上下文长度:支持至少128K令牌的长上下文
- 关键论文:即将发布
- 模型创建时间:2025年5月20日
- 模型版本:1.0.0
引用
技术报告即将发布。若使用本模型发表成果,请引用Hugging Face模型页:
@misc{medgemma-hf,
author = {Google},
title = {MedGemma Hugging Face}
howpublished = {\url{https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4}},
year = {2025},
note = {Accessed: [插入访问日期,如2025-05-20]}
}
输入输出
输入:
- 文本字符串(如问题或提示)
- 图像(归一化为896x896分辨率,编码为256令牌/张)
- 总输入长度128K令牌
输出:
- 生成文本(如问题回答、图像内容分析或文档摘要)
- 总输出长度8192令牌
性能验证
MedGemma在多模态分类、报告生成、视觉问答和文本任务中评估。
关键性能指标
影像评估
MedGemma 4B在放射学、皮肤病学、组织病理学、眼科学和多模态临床推理基准中超越Gemma 3 4B:
任务与指标 |
MedGemma 4B |
Gemma 3 4B |
医学图像分类 |
|
|
MIMIC CXR - 前5病症平均F1 |
88.9 |
81.1 |
CheXpert CXR - 前5病症平均F1 |
48.1 |
31.2 |
DermMCQA* - 准确率 |
71.8 |
42.6 |
视觉问答 |
|
|
SlakeVQA(放射学)- 令牌化F1 |
62.3 |
38.6 |
VQA-Rad**(放射学)- 令牌化F1 |
49.9 |
38.6 |
PathMCQA(组织病理学,内部***)- 准确率 |
69.8 |
37.1 |
知识与推理 |
|
|
MedXpertQA(文本+多模态问题)- 准确率 |
18.8 |
16.4 |
*数据来自Liu (2020, Nature medicine)(皮肤病症4选1分类)
**基于Yang (2024, arXiv)的"平衡划分"
***基于多数据集(乳腺癌、宫颈癌和前列腺癌的3-9选1分类)
胸部X光报告生成
在MIMIC-CXR上使用RadGraph F1指标评估:
指标 |
MedGemma 4B(预训练) |
PaliGemma 2 3B(CXR调优) |
PaliGemma 2 10B(CXR调优) |
胸部X光报告生成 |
|
|
|
MIMIC CXR - RadGraph F1 |
29.5 |
28.8 |
29.5 |
指令调优版因报告风格差异得分较低(0.22和0.12),需在MIMIC报告上微调以提升性能。
文本评估
MedGemma在医学知识和推理文本基准中全面超越基础Gemma模型:
指标 |
MedGemma 27B |
Gemma 3 27B |
MedGemma 4B |
Gemma 3 4B |
MedQA(4选) |
89.8(5次最优)87.7(0样本) |
74.9 |
64.4 |
50.7 |
MedMCQA |
74.2 |
62.6 |
55.7 |
45.4 |
PubMedQA |
76.8 |
73.4 |
73.4 |
68.4 |
MMLU Med(纯文本) |
87.0 |
83.3 |
70.0 |
67.2 |
MedXpertQA(纯文本) |
26.7 |
15.7 |
14.2 |
11.6 |
AfriMed-QA |
84.0 |
72.0 |
52.0 |
48.0 |
注:MedGemma 27B使用测试时缩放提升性能。
伦理安全评估
评估方法
通过结构化评估和内部红队测试验证内容政策合规性,涵盖:
- 儿童安全:文本/图像生成涉及儿童性虐待等政策
- 内容安全:骚扰、暴力、仇恨言论等
- 表征危害:偏见、刻板印象等
- 医疗危害:信息质量、有害关联等
独立"保障评估"为责任决策提供依据,结果报告至责任与安全委员会。
评估结果
所有安全领域测试中(文本/图像/音频,4B/27B模型),政策违规极少。主要局限为仅测试英语提示。
数据卡
数据集概览
训练
基础Gemma模型预训练于大规模文本和代码数据。MedGemma 4B使用专为医学数据预训练的SigLIP图像编码器,涵盖放射影像、病理切片、眼科和皮肤病图像。其LLM组件训练数据包括相关医学文本。
评估
在22个数据集、5类任务、6种医学影像模态上评估,包括公开和定制数据集,重点关注专家人工评估(如CXR报告生成和放射学VQA)。
数据来源
结合公开和私有数据集:
公开数据包括MIMIC-CXR(胸部X光及报告)、Slake-VQA(多模态医学图像问题)、PAD-UFES-20(皮肤病变图像)、SCIN(皮肤病图像)、TCGA(癌症基因组)、CAMELYON(淋巴结病理)、PMC-OA(生物医学文献配图)、Mendeley膝部X光等。
另包含多个授权专有数据集(详见文档)。
数据引用
(此处省略具体引用格式,详见原文数据卡部分)
去标识化
所有数据集均经过严格匿名化处理以保护患者隐私。
实现信息
软件
使用JAX训练,充分利用TPU等硬件加速。
使用限制
预期用途
MedGemma是开源多模态生成AI模型,旨在作为医疗文本/图像应用的开发起点。开发者需根据具体用途进行训练、适配和实质性修改。
优势
- 提供同类尺寸模型中优异的医学图像/文本理解基线
- 相比非医学预训练模型,更高效适配下游医疗用例
- 可通过提示工程、微调等方式优化
限制
- 未经适当验证和修改不得直接用于临床诊断或治疗决策
- 输出需独立验证和临床验证
- 多图像理解、多轮应用未经评估
- 对提示词更敏感
开发者需注意:
- 验证数据偏差:确保应用场景的代表性
- 数据污染风险:在非公开数据上验证泛化能力