许可证:apache-2.0
语言:
模型卡片 MELT-TinyLlama-1.1B-Chat-v1.0
MELT-TinyLlama-1.1B-Chat-v1.0 大型语言模型(LLM)是一个基于公开可用的医学数据预训练和微调的生成式文本模型。
相较于 TinyLlama-1.1B-Chat-v1.0,MELT-TinyLlama-1.1B-Chat-v1.0 在包括 USMLE、印度 AIIMS 和 NEET 医学考试示例在内的 3 个医学基准测试中,平均提升了 13.76%。
模型详情
医学教育语言转换器(MELT)模型已在医学领域的广泛文本、聊天、问答和指令数据上进行了训练。
虽然模型的评估使用了公开可用的 USMLE、印度 AIIMS 和 NEET 医学考试示例问题,但其用途旨在更广泛适用。
模型描述
用途
MELT 仅用于研究目的。MELT 模型最适合以问答或聊天格式的提示。
超出范围的使用
MELT 仅用于研究目的,不应用于医疗建议。
偏见、风险和限制
MELT 使用公开可用的数据集进行训练,这些数据可能包含偏见和不准确的信息。训练和评估数据集的内容或准确性未经评估。
如何开始使用该模型
像使用任何 llama-2-7b-chat-hf 模型一样使用此模型。
训练详情
训练数据
训练使用了以下数据集:
Expert Med
MedQA 训练集
MedMCQA 训练集
LiveQA
MedicationQA
MMLU 临床主题
医学抽认卡
Wikidoc
Wikidoc 患者信息
MEDIQA
MMMLU
icliniq 10k
HealthCare Magic 100k
GenMedGPT-5k
心理健康对话数据集
训练过程
训练超参数
- Lora 秩: 64
- Lora Alpha: 16
- Lora 目标: "o_proj","down_proj","v_proj","gate_proj","up_proj","k_proj","q_proj"
- 学习率: 2e-4
- 训练轮次: 3
- 精度: bf16
评估
MELT-TinyLlama-1.1B-Chat-v1.0 在 USMLE、印度 AIIMS 和 NEET 医学考试基准测试中,平均比 TinyLlama-1.1B-Chat-v1.0 提升了 13.76%。
TinyLlama-1.1B-Chat-v1.0
- medqa: {'base': {'Average': 25.49, 'STEP-1': 24.48, 'STEP-2&3': 26.64}}
- mausmle: {'base': {'Average': 19.71, 'STEP-1': 21.18, 'STEP-2': 20.69, 'STEP-3': 17.76}}
- medmcqa: {'base': {'Average': 28.52, 'MEDICINE': 29.35, 'OPHTHALMOLOGY': 28.57, 'ANATOMY': 30.82, 'PATHOLOGY': 29.07, 'PHYSIOLOGY': 20.45, 'DENTAL': 30.09, 'RADIOLOGY': 14.29, 'BIOCHEMISTRY': 22.31, 'ANAESTHESIA': 26.09, 'GYNAECOLOGY': 24.84, 'PHARMACOLOGY': 32.02, 'SOCIAL': 31.11, 'PEDIATRICS': 31.82, 'ENT': 28.95, 'SURGERY': 31.45, 'MICROBIOLOGY': 26.03, 'FORENSIC': 16.28, 'PSYCHIATRY': 22.22, 'SKIN': 40.0, 'ORTHOPAEDICS': 21.43, 'UNKNOWN': 0.0}}
- 平均: 24.57%
MELT-TinyLlama-1.1B-Chat-v1.0
- medqa: {'base': {'Average': 29.5, 'STEP-1': 28.17, 'STEP-2&3': 31.03}}
- mausmle: {'base': {'Average': 21.51, 'STEP-1': 27.06, 'STEP-2': 19.54, 'STEP-3': 18.69}}
- medmcqa: {'base': {'Average': 32.84, 'MEDICINE': 27.72, 'OPHTHALMOLOGY': 38.1, 'ANATOMY': 39.73, 'PATHOLOGY': 32.56, 'PHYSIOLOGY': 35.61, 'DENTAL': 32.23, 'RADIOLOGY': 41.07, 'BIOCHEMISTRY': 33.06, 'ANAESTHESIA': 39.13, 'GYNAECOLOGY': 22.88, 'PHARMACOLOGY': 32.58, 'SOCIAL': 26.67, 'PEDIATRICS': 34.09, 'ENT': 42.11, 'SURGERY': 33.47, 'MICROBIOLOGY': 30.14, 'FORENSIC': 41.86, 'PSYCHIATRY': 55.56, 'SKIN': 60.0, 'ORTHOPAEDICS': 35.71, 'UNKNOWN': 100.0}}
- 平均: 27.95%
测试数据、因素和指标
测试数据
MedQA 测试集
MedMCQA 测试集
MA USMLE
免责声明:
使用此类大型语言模型(包括本模型)不提供任何形式的保证或担保。尽管已尽力确保生成信息的准确性、完整性和可靠性,但需注意这些模型可能产生不准确、过时或不适用于特定目的的响应。用户在使用这些模型生成的信息时应谨慎判断。输出内容不应被视为专业、法律、医疗、财务或其他形式的建议。建议针对具体问题或关键决策寻求专家意见或咨询适当来源。这些模型的创建者、开发者和提供者对因使用、依赖或解释模型提供的信息而导致的任何损害、损失或后果不承担任何责任。用户对其交互和使用生成内容承担全部责任。通过使用这些语言模型,用户同意对开发者、提供者和关联方因使用模型而产生的任何索赔、损害或责任进行赔偿并使其免受损害。请注意,这些模型在不断演进,其能力、局限性和输出可能会随时间变化而不另行通知。使用此语言模型即表示您接受并理解本免责声明。