license: apache-2.0
language:
- en
tag: text-generation
tags:
- medical
datasets:
- Open-Orca/OpenOrca
- pubmed
- medmcqa
- maximegmd/medqa_alpaca_format
base_model: mistralai/Mistral-7B-v0.1
metrics:
- accuracy
Internist.ai 7b 模型卡
Internist.ai 7b 是一款由医学医生训练的大型医疗领域语言模型,旨在展示医生参与循环方法的优势。训练数据经过医学医生精心筛选,以确保临床相关性和临床实践所需的质量。
我们发布的这款7b模型是首个在MedQA(USMLE)考试中得分超过60%及格线的7b模型,并在大多数医学评估中优于同类规模模型。
该模型作为概念验证,未来计划基于更庞大的医学文献语料库训练更大规模的模型。如果您希望赞助计算资源以加速训练进程,请随时联系我们。
使用须知
本模型由医学医生为医学医生设计,未针对非医疗专业人员使用时的潜在安全问题接受专门训练。
我们强烈建议在未经前瞻性临床试验广泛评估及额外安全训练的情况下,切勿在真实临床环境中使用本模型。
模型详情
模型来源
使用场景
本模型旨在证明结合高质量医学文献与通用数据可保持跨领域能力。模型未针对特定用途进行训练,也未经过额外的安全指令微调。
当前版本可作为医疗专业人士的临床决策支持或文档辅助工具。非专业人士使用时可能无法识别错误,故不建议使用。
建议在实际应用前进行任务专项训练与安全评估。
格式说明
模型采用Alpaca格式,支持聊天模板调用:
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained("internistai/base-7b-v0.2")
tokenizer = AutoTokenizer.from_pretrained("internistai/base-7b-v0.2")
messages = [
{"role": "user", "content": "描述胡桃夹综合征的解剖学特征"},
]
encodeds = tokenizer.apply_chat_template(messages, add_generation_prompt=True ,return_tensors="pt")
model_inputs = encodeds.to(device)
model.to(device)
generated_ids = model.generate(model_inputs, max_new_tokens=1000, do_sample=True)
decoded = tokenizer.batch_decode(generated_ids)
print(decoded[0])
非适用场景
无论是否微调,均不建议在生产环境中用于自然语言生成。
专业评估
我们创建了包含100个问题的自由回答评估数据集,将本模型与GPT-4的回答对比后,邀请10位不同专科的医学医生采用7级李克特量表进行评分(详见论文)。
训练详情
训练数据
总训练token量达23亿:
- 通用领域: OpenOrca-GPT4数据集,基于Flan提示通过GPT-4生成
- 医疗指南: 包含11,332篇UpToDate文章及覆盖USMLE考试大纲的专科指南
- 医学教材: 来自PMC LitArch及大学图书馆的10,376本教科书
- 合成数据: 通过大模型指令转换生成的4亿token医疗指南衍生数据
数据说明: 因包含专有信息,训练数据集不予公开。合成数据集因质量未达标准亦不发布。
训练流程
使用4块NVIDIA A100 80GB显卡进行450小时训练,采用FlashAttention、NEFTune及样本打包技术。
超参数配置
参数 |
值 |
bf16 |
启用 |
学习率 |
6e-6 |
epsilon |
1e-5 |
训练轮次 |
4 |
beta系数 |
[0.9, 0.95] |
权重衰减 |
0.1 |
批大小 |
192,000 token |
序列长度 |
4096 |
学习率调度 |
余弦退火 |
最小学习率 |
1e-8 |
NEFT alpha |
5 |
预热步数 |
100 |
评估
测试数据与指标
测试集
评估指标
结果
我们在MedQA(四选一)、MedMCQA和PubMedQA基准测试中对比同类模型,成为首个在MedQA突破60%及格线的7b模型。
|
Internist.ai 7b |
PMC LLaMA 7b* |
Mistral 7b |
Meditron 7b** |
MedQA |
60.5 |
27.7 (44.7) |
48.7 |
52.0 |
MedMCQA |
55.8 |
32.2 (51.4) |
45.7 |
59.2 |
PubMedQA |
79.4 |
67.8 (74.6) |
75.8 |
74.4 |
MMLU专业医学 |
76.1 |
19.5 |
65.8 |
26.6 |
MMLU临床知识 |
70.6 |
23.8 |
61.1 |
35.5 |
MMLU解剖学 |
65.9 |
18.5 |
52.6 |
42.6 |
MMLU大学医学 |
63.0 |
23.7 |
55.5 |
28.9 |
MMLU医学遗传学 |
71.0 |
32.0 |
68.0 |
46.0 |
*注:PMC LLaMA 7b因格式适配问题表现不佳,括号内为原作者报告值
**注:Meditron 7b的MMLU结果与其论文报告的54.2平均分存在差异,欢迎提供详细分类数据以便更新
引用
BibTeX格式:
@article{10.1093/jamia/ocae120,
author = {Griot, Maxime and Hemptinne, Coralie and Vanderdonckt, Jean and Yuksel, Demet},
title = "{高质量混合领域数据对医学语言模型性能的影响}",
journal = {美国医学信息学会杂志},
volume = {31},
number = {9},
pages = {1875-1883},
year = {2024},
month = {05},
doi = {10.1093/jamia/ocae120},
url = {https://doi.org/10.1093/jamia/ocae120},
}