基础模型: unsloth/qwen2.5-3b-instruct-unsloth-bnb-4bit
标签:
- 文本生成推理
- 强化学习
- 转换器
- unsloth
- qwen2
- trl
- grpo
许可证: apache-2.0
语言:
- 英语
数据集:
- qiaojin/PubMedQA
- openai/gsm8k
- yesilhealth/Health_Benchmarks
管道标签: 文本生成
MedQwen3B-Reasoner:医学领域推理与数学增强训练
MedQwen3B-Reasoner是基于Qwen2.5-3B-Instruct的专用变体,采用GRPO
进行微调,擅长医学领域推理,同时保持强大的数学问题解决能力。该模型展现出增强的推理能力,并能在适当情况下表达不确定性。

重要提示
若使用ollama
、llama-cpp
、vllm
或其他推理引擎,需按以下方式设置系统提示,以获得最佳表现:
'\n请按以下格式回答:\n<reasoning>\n...\n</reasoning>\n<answer>\n...\n</answer>\n'
想训练自己的模型?
阅读我的文章此处或跟随笔记本。
主要特点
- 医学领域专长与数学推理能力相结合
- 能用"可能"表达不确定性
- 结构化推理输出,附带清晰的逐步解释
- 紧凑尺寸(30亿参数)同时保持强劲性能
- 采用GRPO(组相对策略优化)训练483步
训练数据
模型采用精心策划的数据集混合训练:
示例
以下是模型在不同领域推理能力的示例:
数学推理
问:阿加莎有些钱要花在新自行车上。她花15美元买车架,25美元买前轮。如果她还有20美元可以花在车座和把带上,她最初有多少钱?
标准答案:
60
MedQwen3B回答(附带推理过程)
<reasoning>
要确定阿加莎最初有多少钱,我们需要将她花在车架、前轮上的金额与剩余要花在车座和把带上的钱相加。
花在车架和前轮上的总金额是:
$15 + $25 = $40
她剩余的金额是$20。
因此,阿加莎最初的钱是她已花费和剩余金额的总和:
$40 + $20 = $60
</reasoning>
<answer>
阿加莎最初有60美元。
</answer>
医学研究分析
给定以下科学背景:
"""
接受经尿道膀胱肿瘤切除术(TURBT)的膀胱癌患者有复发风险。本研究旨在将骨形态发生蛋白(BMP)表达水平与尿路上皮癌侵袭性、TNM分期及TURBT后复发时间相关联。
在33例健康移行上皮和42例尿路上皮癌标本中,通过实时聚合酶链反应测定BMP2、BMP4和BMP7表达。接受TURBT的患者随访1年。
BMP2和BMP7在浸润性尿路上皮癌中表达下调,相对表达量分别为0.76(p=0.04)和0.28(p=0.025),而BMP4在非浸润性肿瘤中表达下调。BMP2和BMP7高表达与延长复发时间相关(对数秩检验:p=0.01和p=0.03)。
"""
回答以下问题:
骨形态发生蛋白-2和-7在膀胱癌中的表达能否预测肿瘤复发时间?用'是'、'否'或'可能'回答。需仔细审阅背景并推理后作答。
标准答案:
是
MedQwen3b回答:
<reasoning>
研究表明BMP2和BMP7高表达与延长复发时间相关(对数秩检验:p=0.01和p=0.03)。这意味着BMP2和BMP7的基因表达水平与复发时间显著相关,表达越高复发时间越长。因此,基于统计学显著性(p值<0.05),可以合理得出结论:骨形态发生蛋白-2和-7在膀胱癌患者中的表达能预测肿瘤复发时间。
</reasoning>
<answer>
是
</answer>
临床决策
回答以下问题:
儿科医生鼓励犹豫家长接种疫苗的推荐策略是什么?A:允许延迟某些疫苗,同时确保最重要的疫苗按时接种。B:以评判性方式提供免疫益处的证据。C:提倡替代免疫计划以迎合家长担忧。D:若拒绝接种则终止诊疗关系。
用'A'、'B'、'C'或'D'回答。需仔细审阅背景并推理后作答。
标准答案:
A
MedQwen3B回答:
<reasoning>
儿科医生鼓励犹豫家长接种疫苗的策略不应导致放弃或拒绝家庭,这会损害儿科医生保护儿童健康的关键作用。选项D可能破坏医患信任。选项B和C可能造成混淆或威胁家长对推荐接种计划的信任。选项A则提供了基于证据的折中方案,允许一定灵活性同时确保核心疫苗覆盖,这种平衡家长顾虑与公共健康需求的方式能获得犹豫家长的尊重。
这种方法尊重家长自主权同时提供相关信息与 reassurance,有助于解决其犹豫,使选项A成为最合适策略。
</reasoning>
<answer>
A
</answer>
使用方式
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "hooman650/MedQwen3B-Reasoner"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "BMI与心血管疾病风险有何关系?"
messages = [
{"role": "system", "content": "\n请按以下格式回答:\n<reasoning>\n...\n</reasoning>\n<answer>\n...\n</answer>\n"},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
模型详情
引用
若在研究中使用本模型,请引用:
@misc {hooman_sedghamiz_2025,
author = { {Hooman Sedghamiz} },
title = { MedQwen3B-Reasoner (修订版 5dbc982) },
year = 2025,
url = { https://huggingface.co/hooman650/MedQwen3B-Reasoner },
doi = { 10.57967/hf/4415 },
publisher = { Hugging Face }
}
许可证
本模型采用Apache 2.0许可证授权。