许可证:apache-2.0
数据集:
- FreedomIntelligence/medical-o1-reasoning-SFT
语言:
- 英语
评估指标:
- 准确率
基础模型:
- mistralai/Mistral-7B-Instruct-v0.3
流水线标签:文本生成
库名称:transformers
标签:
- 化学
- 医学
- 医生
- AI医生
- 疾病
- 医疗AI
- 医学学士
- AI代理
模型卡片
🩺 医疗诊断AI模型 - 基于Mistral-7B与LoRA技术 🚀
🔹 模型概述:
基础模型:Mistral-7B(77亿参数)
微调方法:LoRA(低秩自适应)
量化:bnb_4bit(降低内存占用,同时保持性能)
🔹 参数详情:
原始Mistral-7B参数:77亿
LoRA微调参数:约占总参数的4.48%(约3.4亿)
最终合并模型大小(bnb_4bit量化):约4.5GB
🔹 核心特性:
✅ 精准诊断胸痛、头晕、呼吸困难等症状
✅ 采用思维链(CoT)提示实现逐步医学推理
✅ 高效推理,降低显存占用(适合显存有限的GPU)
🔹 应用场景:
旨在为医疗专业人员提供清晰、有证据支持的见解,辅助临床决策。
📝 注意:本模型提供有价值的参考,但不能替代专业医疗判断。
本模型卡片是基础模板,基于原始模板生成。
模型详情
原始Mistral-7B参数:77亿
LoRA微调参数:占总参数的4.48%(约3.4亿)
最终合并模型大小(bnb_4bit量化):约4.5GB
🔹 核心特性:
✅ 精准诊断胸痛、头晕、呼吸困难等症状
✅ 采用思维链(CoT)提示实现逐步医学推理
✅ 高效推理,降低显存占用(适合显存有限的GPU)
模型描述
本模型基于强大的Mistral-7B语言模型,以其卓越的推理能力和深度语言理解著称。通过LoRA微调,模型在以下医疗任务中表现优异:
✅ 根据胸痛、头晕、气短等症状诊断疾病
✅ 通过思维链(CoT)提示提供详细的逐步医学推理
✅ 生成有证据支持的高精度答案
- 开发者:[Ritvik Gaur]
- 资助方[可选]:[需补充信息]
- 分享者[可选]:[需补充信息]
- 模型类型:[医疗大语言模型]
- 支持语言(NLP):[需补充信息]
- 许可证:[需补充信息]
- 微调基础模型[可选]:[Mistral-7B-Instruct-v3]
模型来源[可选]
- 代码库:[需补充信息]
- 论文[可选]:[需补充信息]
- 演示[可选]:[需补充信息]
用途
直接使用
[需补充信息]
下游任务[可选]
[需补充信息]
不适用范围
请勿完全依赖此模型处理真实疾病,本模型仅作为已验证医疗应用的辅助工具。
偏差、风险与限制
[需补充信息]
建议
用户(直接或下游)应了解模型的潜在风险、偏差和限制。需进一步补充建议信息。
快速开始
!pip install -q -U bitsandbytes
!pip install -q -U peft
!pip install -q -U trl
!pip install -q -U tensorboardX
!pip install -q wandb
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("ritvik77/Medical_Doctor_AI_LoRA-Mistral-7B-Instruct_FullModel")
tokenizer = AutoTokenizer.from_pretrained("ritvik77/Medical_Doctor_AI_LoRA-Mistral-7B-Instruct_FullModel")
prompt = "患者主诉胸痛、头晕伴鼻出血,可能是癌症吗?"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=300)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
训练详情
训练数据
[需补充信息]
训练流程
超参数配置
参数 |
值 |
说明 |
基础模型 |
mistralai/Mistral-7B-Instruct |
选择因其强大推理能力 |
微调框架 |
LoRA(低秩自适应) |
仅微调约4.48%参数 |
量化 |
bnb_4bit |
降低显存消耗 |
训练批大小 |
12 |
平衡GPU利用率与收敛性 |
评估批大小 |
12 |
与训练批大小一致确保稳定性 |
梯度累积步数 |
3 |
有效批大小=36提升稳定性 |
学习率 |
3e-5 |
较低值确保平滑收敛 |
预热比例 |
0.2 |
渐进学习率提升增强稳定性 |
调度器类型 |
Cosine |
平滑控制学习率衰减 |
训练轮次 |
5 |
平衡收敛与过拟合 |
最大梯度范数 |
0.5 |
防止梯度爆炸 |
权重衰减 |
0.08 |
正则化提升泛化能力 |
bf16精度 |
True |
最大化GPU利用率与精度 |
梯度检查点 |
启用 |
降低训练内存占用 |
🔎 LoRA配置
参数 |
值 |
说明 |
秩维度 |
128 |
平衡表达能力与内存开销 |
LoRA Alpha |
128 |
确保梯度更新稳定 |
LoRA Dropout |
0.1 |
防止过拟合 |
评估
[需补充信息]
环境影响
碳排放估算可使用机器学习影响计算器,参考Lacoste等(2019)。
[需补充硬件类型/使用时长/云服务商等信息]
技术规范[可选]
[需补充信息]
引用[可选]
[需补充文献信息]
术语表[可选]
[需补充说明]
更多信息[可选]
[需补充内容]
模型卡片作者[可选]
[需补充信息]
模型卡片联系方式
[需补充信息]