library_name: transformers
tags: []
II-Medical-8B 医疗大语言模型
一、模型概述
II-Medical-8B是智能互联网研发的新一代医疗大语言模型,专为增强AI医疗推理能力而设计。在广受好评的II-Medical-7B-Preview基础上,本版本在医疗问答能力上实现重大突破。
二、训练方法
我们收集构建了全面的医疗领域推理数据集,基于Qwen/Qwen3-8B模型进行SFT微调,随后通过DAPO算法在硬推理数据集上进一步优化。
SFT阶段参数配置:
- 最大长度:16378
- 批次大小:128
- 学习率:5e-5
- 训练轮次:8
强化学习阶段配置:
- 提示词最大长度:2048 tokens
- 响应最大长度:12288 tokens
- 超长缓冲:启用(4096 tokens,惩罚系数1.0)
- 裁剪比率:低0.2,高0.28
- 批次规模:训练提示512,生成提示1536,小批次32
- 单提示响应数:16
- 采样参数:温度1.0,Top-p 1.0,Top-k -1(vLLM生成)
- 学习率:1e-6,预热步数10,权重衰减0.1
- 损失聚合:token均值
- 梯度裁剪:1.0
- 熵系数:0
三、评估结果
在医疗大模型综合评估基准HealthBench上,II-Medical-8B取得40%的得分,与OpenAI的o1推理模型及当前最先进的GPT-4.5表现相当。下方提供与ChatGPT可用模型的对比。
详细测试结果参见此处。

我们在10个医疗QA基准上测试,包括MedMCQA、MedQA、PubMedQA、MMLU-Pro和GPQA中的医学问题、《柳叶刀》和《新英格兰医学杂志》的小型QA集、MedBullets平台的4选项和5选项分类题以及MedXpertQA。
模型 |
MedMC |
MedQA |
PubMed |
MMLU-P |
GPQA |
Lancet |
MedB-4 |
MedB-5 |
MedX |
NEJM |
平均 |
华佗GPT-o1-72B |
76.76 |
88.85 |
79.90 |
80.46 |
64.36 |
70.87 |
77.27 |
73.05 |
23.53 |
76.29 |
71.13 |
QWQ 32B |
69.73 |
87.03 |
88.5 |
79.86 |
69.17 |
71.3 |
72.07 |
69.01 |
24.98 |
75.12 |
70.68 |
Qwen2.5-7B指令版 |
56.56 |
61.51 |
71.3 |
61.17 |
42.56 |
61.17 |
46.75 |
40.58 |
13.26 |
59.04 |
51.39 |
华佗GPT-o1-8B |
63.97 |
74.78 |
80.10 |
63.71 |
55.38 |
64.32 |
58.44 |
51.95 |
15.79 |
64.84 |
59.32 |
医疗推理8B |
61.67 |
71.87 |
77.4 |
64.1 |
50.51 |
59.7 |
60.06 |
54.22 |
22.87 |
66.8 |
59.92 |
M1-7B |
62.54 |
75.81 |
75.80 |
65.86 |
53.08 |
62.62 |
63.64 |
59.74 |
19.59 |
64.34 |
60.3 |
II-Medical-8B-SFT |
71.92 |
86.57 |
77.4 |
77.26 |
65.64 |
69.17 |
76.30 |
67.53 |
23.79 |
73.80 |
68.80 |
II-Medical-8B |
71.57 |
87.82 |
78.2 |
80.46 |
67.18 |
70.38 |
78.25 |
72.07 |
25.26 |
73.13 |
70.49 |
四、数据构建
训练数据集包含555,000个样本,来源如下:
1. 公开医疗推理数据集(103,031样本)
2. QwQ生成的合成医疗QA数据(225,700样本)
基于权威医疗数据集生成:
3. 精选医疗R1轨迹数据(338,055样本)
首先汇集所有公开R1轨迹:
R1推理轨迹处理流程:
- 嵌入生成:使用sentence-transformers/all-MiniLM-L6-v2生成提示词嵌入
- 聚类分析:进行50,000簇的K均值聚类
- 领域分类:
- 每簇选取距中心最近的10个提示词
- 使用Qwen2.5-32b-Instruct分类提示词领域
- 根据多数表决确定簇领域标签
- 领域过滤:仅保留标记为"医学"或"生物学"的聚类
4. 补充数学数据集
- 添加15,000个轻量R1推理轨迹样本
- 目的:增强模型通用推理能力
数据预处理
-
完整性过滤
-
长度过滤
- 最小阈值:保留超过3个单词的提示词
- 等待词过滤:移除"Wait"出现超过47次(97百分位阈值)的轨迹
数据净化
采用两步净化法:
- 参照开放R1项目:使用10-gram方法净化评估数据集
- 采用
s1k
模糊净化法(阈值90%)
我们的流程已与评估数据集严格净化隔离
五、使用方式
本模型使用方法与Qwen或Deepseek-R1-Distill系列模型相同。
使用vLLM快速启动服务:
vllm serve Intelligent-Internet/II-Medical-8B
或使用SGLang启动:
python -m sglang.launch_server --model Intelligent-Internet/II-Medical-8B
六、使用建议
- 推荐采样参数:temperature=0.6,top_p=0.9
- 使用时请明确要求分步推理,并将最终答案置于\boxed{}中(例如:"请逐步推理,并将最终答案放在\boxed{}内")
七、局限性与注意事项
- 数据集可能存在源材料的固有偏差
- 医学知识需要定期更新
- 重要提示:本模型不适用于实际医疗用途
八、引用文献
@misc{2025II-Medical-8B,
title={II-Medical-8B医疗推理模型},
author={智能互联网},
year={2025}
}