extra_gated_heading: 获取Hugging Face上的Med42访问权限
extra_gated_description: >
此表单用于申请访问Hugging Face平台上的Med42模型。请在提交前仔细阅读Med42许可证并同意我们的许可条款及可接受使用政策。M42团队将在2个工作日内处理申请请求。
extra_gated_button_content: 提交
extra_gated_fields:
全名: text
国家/地区: text
所属机构: text
我确认上述信息准确无误,并已阅读同意Med42许可协议: checkbox
language:
- en
pipeline_tag: text-generation
inference: false
license: other
license_name: med42
tags:
- m42
- health
- healthcare
- clinical-llm
🚨 更新:Med42第二版正式发布! 🚨
模型下载地址: Med42-v2-70B 与 Med42-v2-8B
Med42 - 临床大语言模型
Med42是由M42开发的开放获取临床大语言模型(LLM),旨在拓展医学知识获取途径。该生成式AI系统基于LLaMA-2架构,拥有700亿参数,可为医学问题提供高质量解答。
模型详情
注:使用本模型需遵守M42健康许可协议。下载模型权重(及分词器)前,请阅读Med42许可证并通过此页面提交访问申请以接受许可条款。
Med42以基础LLaMA-2模型为起点,在约2.5亿token的指令微调数据集上进行训练,数据来源包括医学知识卡片、考试题目和开放领域对话。
开发团队: M42健康AI团队
基础模型: Llama-2 - 70B
上下文长度: 4k tokens
输入类型: 纯文本
输出类型: 纯文本生成
模型状态: 当前为基于离线数据的静态模型,后续将发布性能增强的调优版本
许可证: 自定义许可协议详见此处
研究论文: 《Med42 - 医学大语言模型微调策略评估:全参数与参数高效方法对比》
使用场景
Med42作为AI辅助工具开放测试,旨在提升临床决策支持及医疗领域LLM应用,潜在场景包括:
- 医学问答系统
- 病历摘要生成
- 辅助医疗诊断
- 通用健康咨询
使用时需遵循特定格式规范,包含<|system|>
、<|prompter|>
和<|assistant|>
标签:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name_or_path = "m42-health/med42-70b"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
prompt = "糖尿病有哪些症状?"
prompt_template=f'''
<|system|>: 您是由阿联酋M42健康创建的医疗助手。
<|prompter|>:{prompt}
<|assistant|>:
'''
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True,eos_token_id=tokenizer.eos_token_id, pad_token_id=tokenizer.pad_token_id, max_new_tokens=512)
print(tokenizer.decode(output[0]))
硬件环境
训练过程在Condor Galaxy 1 (CG-1)超级计算平台完成。
评估结果
Med42在MedQA、MedMCQA、PubMedQA、HeadQA及MMLU临床主题等医学基准测试中表现优异(除特殊说明外均为零样本准确率)。评估使用EleutherAI评估工具库,与ClinicalCamel-70B、GPT-3.5、GPT-4.0、Med-PaLM 2进行对比:
数据集 |
Med42 |
ClinicalCamel-70B |
GPT-3.5 |
GPT-4.0 |
Med-PaLM-2 (5-shot)* |
MMLU临床知识 |
74.3 |
69.8 |
69.8 |
86.0 |
88.3 |
MMLU大学生物学 |
84.0 |
79.2 |
72.2 |
95.1 |
94.4 |
MMLU大学医学 |
68.8 |
67.0 |
61.3 |
76.9 |
80.9 |
MMLU医学遗传学 |
86.0 |
69.0 |
70.0 |
91.0 |
90.0 |
MMLU专业医学 |
79.8 |
71.3 |
70.2 |
93.0 |
95.2 |
MMLU解剖学 |
67.4 |
62.2 |
56.3 |
80.0 |
77.8 |
MedMCQA |
60.9 |
47.0 |
50.1 |
69.5 |
71.3 |
MedQA |
61.5 |
53.4 |
50.8 |
78.9 |
79.7 |
USMLE自我评估 |
71.7 |
- |
49.1 |
83.8 |
- |
USMLE模拟考试 |
72.0 |
54.3 |
56.9 |
84.3 |
- |
*注:Med-PaLM 2未报告零样本性能,详见https://github.com/m42health/med42
核心指标:
- 在美国医师执照考试(USMLE)模拟测试中达到72%准确率,超越现有公开医学LLM的最高水平
- MedQA数据集61.5%准确率(GPT-3.5为50.8%)
- 在MMLU临床主题上持续优于GPT-3.5
限制与安全使用
- 当前版本不建议用于实际临床场景,正在进行全面人工安全评估
- 存在生成错误或有害信息的风险
- 可能延续训练数据中的偏见
请负责任地使用!未经严格安全测试切勿用于医疗场景。
访问与问题反馈
问题反馈渠道:
引用文献
研究论文已发表于AAAI 2024春季研讨会-临床基础模型专题,arXiv版本:https://arxiv.org/abs/2404.14779
@article{christophe2024med42,
title={Med42 -- 医学大语言模型微调策略评估:全参数与参数高效方法对比},
author={Clément Christophe and Praveen K Kanithi and Prateek Munjal and Tathagata Raha and Nasir Hayat and Ronnie Rajan and Ahmed Al-Mahrooqi and Avani Gupta and Muhammad Umar Salman and Gurpreet Gosal and Bhargav Kanakiya and Charles Chen and Natalia Vassilieva and Boulbaba Ben Amor and Marco AF Pimentel and Shadab Khan},
year={2024},
eprint={2404.14779},
archivePrefix={arXiv},
primaryClass={cs.CL}
}