许可证:其他
许可证名称:Health AI 开发者基础条款
许可证链接:https://developers.google.com/health-ai-developer-foundations/terms
库名称:transformers
任务标签:图像文本生成文本
额外访问权限标题:在Hugging Face上访问MedGemma
额外访问权限提示:
要在Hugging Face上访问MedGemma,您需要审阅并同意Health AI开发者基础使用条款。请确保您已登录Hugging Face并点击下方按钮。请求将立即处理。
额外访问权限按钮内容:确认许可证
基础模型:
- google/medgemma-27b-text-it
标签:
- 医疗
- unsloth
MedGemma 模型卡片
模型文档: MedGemma
资源:
作者: Google
模型信息
本节介绍MedGemma模型及其使用方法。
描述
MedGemma是一系列Gemma 3变体,专为医学文本和图像理解性能优化。开发者可利用MedGemma加速构建基于医疗健康的AI应用。目前MedGemma提供两种变体:40亿参数的多模态版本和270亿参数的纯文本版本。
MedGemma 27B仅针对医学文本训练并优化了推理计算效率,仅提供指令调优版本。
MedGemma变体已在涵盖临床相关性的多项基准测试中评估,包括开放基准数据集和定制数据集。开发者可对MedGemma变体进行微调以提升性能,具体参见下文"预期用途"部分。
完整技术报告即将发布。
使用方法
以下代码片段帮助您快速在GPU本地运行模型。如需规模化使用,建议通过Model Garden创建生产版本。
首先安装Transformers库(Gemma 3需transformers 4.50.0及以上版本):
$ pip install -U transformers
使用pipeline
API运行模型
from transformers import pipeline
import torch
pipe = pipeline(
"text-generation",
model="google/medgemma-27b-text-it",
torch_dtype=torch.bfloat16,
device="cuda",
)
messages = [
{"role": "system", "content": "您是一位专业的医疗助手。"},
{"role": "user", "content": "如何鉴别细菌性肺炎与病毒性肺炎?"}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
直接运行模型
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "google/medgemma-27b-text-it"
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
{"role": "system", "content": "您是一位专业的医疗助手。"},
{"role": "user", "content": "如何鉴别细菌性肺炎与病毒性肺炎?"}
]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=200, do_sample=False)
generation = generation[0][input_len:]
decoded = tokenizer.decode(generation, skip_special_tokens=True)
print(decoded)
示例
参考以下Colab笔记本获取使用示例:
模型架构概述
MedGemma基于Gemma 3构建,采用与Gemma 3相同的仅解码器Transformer架构。架构详情参见Gemma 3模型卡片。
技术规格
- 模型类型: 仅解码器Transformer架构(参见Gemma 3技术报告)
- 模态: 4B版: 文本、视觉;27B版: 仅文本
- 注意力机制: 采用分组查询注意力(GQA)
- 上下文长度: 支持至少128K tokens的长上下文
- 关键出版物: 即将发布
- 模型创建日期: 2025年5月20日
- 模型版本: 1.0.0
引用
技术报告即将发布。如需引用,请参考Hugging Face模型页:
@misc{medgemma-hf,
author = {Google},
title = {MedGemma Hugging Face},
howpublished = {\url{https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4}},
year = {2025},
note = {访问日期: [例如2025-05-20]}
}
输入输出
输入:
- 文本字符串(如问题或提示)
- 总输入长度128K tokens
输出:
- 生成的响应文本(如问题答案、图像内容分析或文档摘要)
- 总输出长度8192 tokens
性能验证
MedGemma在多模态分类、报告生成、视觉问答及文本任务中进行了全面评估。
文本评估关键指标
MedGemma 4B和27B在医学知识与推理的文本基准测试中均超越基础Gemma模型:
指标 |
MedGemma 27B |
Gemma 3 27B |
MedGemma 4B |
Gemma 3 4B |
MedQA (4选) |
89.8 (5次最优) 87.7 (0样本) |
74.9 |
64.4 |
50.7 |
MedMCQA |
74.2 |
62.6 |
55.7 |
45.4 |
PubMedQA |
76.8 |
73.4 |
73.4 |
68.4 |
MMLU医学(纯文本) |
87.0 |
83.3 |
70.0 |
67.2 |
MedXpertQA(纯文本) |
26.7 |
15.7 |
14.2 |
11.6 |
AfriMed-QA |
84.0 |
72.0 |
52.0 |
48.0 |
注:所有MedGemma 27B结果均采用测试时缩放提升性能。
伦理安全评估
评估方法
通过结构化评估和内部红队测试验证相关内容政策,涵盖:
- 儿童安全: 文本/图像生成涉及儿童性虐待等政策
- 内容安全: 骚扰/暴力/仇恨言论等政策
- 表征危害: 偏见/刻板印象/有害关联等
- 医疗危害: 信息质量/有害关联等
独立"保障评估"为责任治理决策提供依据,评估结果上报安全委员会。
评估结果
所有安全测试领域均表现安全,主要基于英语提示测试存在局限。
数据卡片
数据集概览
训练数据
- 基础Gemma模型预训练于大规模文本/代码数据
- MedGemma 4B采用专为医学数据预训练的SigLIP图像编码器,涵盖放射/病理/眼科/皮肤科等去标识医学图像
- LLM组件训练数据包括放射/病理等多模态医学文本
评估数据
在22个临床相关基准数据集(5任务6模态)上评估,含专家人工评分的胸部X光报告生成等任务。
数据来源
结合公开与私有数据集:
- 公开数据:
- MIMIC-CXR(胸部X光及报告)
- Slake-VQA(多模态医学问答)
- PAD-UFES-20(皮肤病变图像)
- TCGA(癌症基因组数据)
- CAMELYON(淋巴结病理图像)
- PMC-OA(生物医学文献图像)
- 授权专有数据:
- 美国门诊放射中心CT数据
- 糖尿病视网膜筛查眼底图像
- 哥伦比亚远程皮肤病图像
- 澳大利亚皮肤癌图像
- 欧洲合作学术医院的病理全切片图像
完整数据引用参见原文。
使用限制
预期用途
MedGemma作为开源多模态生成AI模型,旨在为医疗文本/图像应用开发提供基础。开发者需根据具体用途进行微调适配。
优势
- 提供同类尺寸模型中优异的医学图文理解基线性能
- 高效适配下游医疗用例(通过提示工程/微调等方式)
限制
- 禁止直接临床应用: 输出需独立验证和临床验证
- 未评估多图像理解能力
- 未优化多轮对话场景
- 提示敏感性高于Gemma 3
开发者需注意:
- 验证数据偏差: 确保数据代表目标使用场景
- 数据污染风险: 在非公开数据上验证泛化能力
(注:因篇幅限制,部分技术细节和数据引用列表有所精简,完整信息请参考原文。)