Gazal-R1-32B-GRPO-preview开源医学语言模型 - 助力医学推理与临床决策！

首页

Gazal R1 32B GRPO Preview

由 TachyHealth 开发

Gazal-R1-32B 是一款专为医学推理和临床决策打造的语言模型，基于 Qwen 3 32B 构建，在专业医学领域展现出卓越性能。

大型语言模型

Transformers

开源协议:Apache-2.0 #医学推理专家 #结构化临床思维 #GRPO强化学习

下载量 116

发布时间 : 5/26/2025

模型简介

Gazal-R1-32B 是一款专为医学推理和临床决策打造的语言模型，能为医学研究和临床支持提供有力帮助。

模型特点

医学专业知识

在 107,033 个合成医学推理示例上进行了专业训练，涵盖诊断推理、治疗规划、不确定情况下的决策和预后评估等方面。

透明推理

按照既定的临床推理框架，在 `<think></think>` 标签中提供带有逐步解释的结构化临床思维。

卓越性能

在 MedQA 上达到 87.1%，在 MMLU Pro（医学）上达到 81.6%，在 PubMedQA 上达到 79.6%，超越了大 12 倍的模型。

参数效率

采用了包括权重分解低秩自适应（DoRA）和秩稳定 LoRA（rsLoRA）在内的先进训练技术。

对齐优化

通过具有复杂多组件奖励系统的组相对策略优化（GRPO）进行了优化。

医学知识

对多个医学专业和临床场景有全面的理解。

模型能力

医学推理

临床决策支持

诊断推理

治疗规划

预后评估

医学知识问答

使用案例

研究和教育

医学教育和培训

用于医学教育和培训，帮助医学生和医生提升临床推理能力。

临床推理研究

用于临床推理研究，帮助研究人员分析复杂的医学案例。

专业支持

文献综述辅助

辅助医学文献综述，提供结构化的医学知识总结。

临床病例分析支持

支持临床病例分析，提供详细的诊断和治疗建议。

🚀 Gazal-R1-32B：医学推理语言模型

Gazal-R1-32B 是一款专为医学推理和临床决策打造的语言模型。它基于 Qwen 3 32B 构建，通过特殊的训练方式，在专业医学领域展现出卓越性能，能为医学研究和临床支持提供有力帮助。

🚀 快速开始

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "TachyHealth/Gazal-R1-32B-GRPO-preview"

# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# Medical reasoning prompt
prompt = """A 65-year-old male presents with chest pain, shortness of breath, and elevated troponin levels. 
ECG shows ST-segment elevation in leads II, III, and aVF. What is the most likely diagnosis and immediate management?"""

messages = [
    {"role": "user", "content": prompt}
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# Generate response with medical reasoning
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=2048,
    temperature=0.7,
    top_p=0.8,
    top_k=20
)

output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
response = tokenizer.decode(output_ids, skip_special_tokens=True)

print("Medical Assessment:", response)

结构化医学推理格式

Gazal-R1 经过训练，能够以以下格式提供结构化的医学推理：

<think>
Step 1: Analyze presenting symptoms - chest pain, dyspnea, troponin elevation
Step 2: Interpret ECG findings - ST elevation in inferior leads
Step 3: Consider differential diagnoses - STEMI vs NSTEMI vs unstable angina
Step 4: Identify culprit vessel - likely RCA given inferior lead changes
Step 5: Assess urgency - emergent intervention required
Step 6: Plan immediate management - dual antiplatelet, anticoagulation, cath lab
</think>

## Clinical Assessment

**Primary Diagnosis**: ST-Elevation Myocardial Infarction (STEMI), inferior wall

**Reasoning**: The combination of chest pain, elevated troponin, and ST-elevation in leads II, III, and aVF is pathognomonic for inferior STEMI, likely involving the right coronary artery (RCA).

**Immediate Management**:
1. **Reperfusion therapy**: Emergency cardiac catheterization with primary PCI
2. **Antiplatelet therapy**: Aspirin 325mg + P2Y12 inhibitor (clopidogrel/ticagrelor)
3. **Anticoagulation**: Heparin or bivalirudin
4. **Supportive care**: O2 if hypoxic, nitroglycerin for pain (avoid if hypotensive)

**Follow-up**: Post-PCI monitoring, echocardiogram, cardiac rehabilitation referral

✨ 主要特性

医学专业知识：在 107,033 个合成医学推理示例上进行了专业训练，涵盖诊断推理、治疗规划、不确定情况下的决策和预后评估等方面。
透明推理：按照既定的临床推理框架，在 <think></think> 标签中提供带有逐步解释的结构化临床思维。
卓越性能：在 MedQA 上达到 87.1%，在 MMLU Pro（医学）上达到 81.6%，在 PubMedQA 上达到 79.6%，超越了大 12 倍的模型。
参数效率：采用了包括权重分解低秩自适应（DoRA）和秩稳定 LoRA（rsLoRA）在内的先进训练技术。
对齐优化：通过具有复杂多组件奖励系统的组相对策略优化（GRPO）进行了优化。
医学知识：对多个医学专业和临床场景有全面的理解。

📚 详细文档

模型概述

属性	详情
模型类型	因果语言模型（医学推理专家）
基础模型	Qwen 3 32B
训练阶段	两阶段流程（监督微调 + 强化学习）
参数数量	328 亿
参数数量（非嵌入）	312 亿
上下文长度	原生 32,768 个标记，使用 YaRN 可扩展至 131,072 个标记
训练数据	107,033 个合成医学推理示例 + MedReason 数据集（32,682 个示例）
微调方法	DoRA + rsLoRA（参数高效微调）
对齐方式	组相对策略优化（GRPO）

性能结果

模型	规模	MMLU Pro（医学）	MedMCQA	MedQA	PubMedQA
Gazal-R1（最终版）	32B	81.6	71.9	87.1	79.6
Gazal-R1（仅监督微调版）	32B	79.3	72.3	86.9	77.6
Llama 3.1 405B Instruct	405B	70.2	75.8	81.9	74.6
Qwen 2.5 72B Instruct	72B	72.1	66.2	72.7	71.7
Med42-Llama3.1-70B	70B	66.1	72.4	80.4	77.6
Llama 3.1 70B Instruct	70B	74.5	72.5	78.4	78.5
QwQ 32B	32B	70.1	65.6	72.3	73.7
Qwen 3 32B	32B	78.4	71.6	84.4	76.7