🚀 MELT-TinyLlama-1.1B-Chat-v1.0模型卡片
MELT-TinyLlama-1.1B-Chat-v1.0大语言模型(LLM)是一个预训练的生成式文本模型,它使用公开的医学数据进行了预训练和微调。
在包括美国执业医师考试(USMLE)、印度全印度医学科学研究所(AIIMS)考试和印度全国资格暨入学考试(NEET)医学考试样题在内的3个医学基准测试中,MELT-TinyLlama-1.1B-Chat-v1.0相较于TinyLlama-1.1B-Chat-v1.0有13.76%的性能提升。
✨ 主要特性
- 基于公开医学数据预训练和微调,适用于医学领域的文本生成任务。
- 在多个医学基准测试中表现优于TinyLlama-1.1B-Chat-v1.0。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
文档未提供代码示例,故跳过此章节。
📚 详细文档
模型详情
医学教育语言变换器(MELT)模型在医学领域的广泛文本、聊天记录、问答和指令数据上进行了训练。
虽然该模型使用公开的美国执业医师考试(USMLE)、印度全印度医学科学研究所(AIIMS)考试和印度全国资格暨入学考试(NEET)医学考试样题进行了评估,但其应用范围旨在更广泛。
模型描述
使用场景
MELT仅用于研究目的。MELT模型最适合使用问答或聊天格式的提示。
非适用场景
MELT仅用于研究目的,不应用于提供医疗建议。
偏差、风险和局限性
MELT使用公开可用的数据集进行训练,这些数据集可能包含有偏差和不准确的信息。训练和评估数据集的内容和准确性尚未经过评估。
如何开始使用该模型
可以像使用任何llama-2-7b-chat-hf模型一样使用此模型。
训练详情
训练数据
以下数据集用于训练:
训练过程
训练超参数
- Lora秩: 64
- Lora阿尔法: 16
- Lora目标: "o_proj","down_proj","v_proj","gate_proj","up_proj","k_proj","q_proj"
- 学习率: 2e-4
- 训练轮数: 3
- 精度: bf16
评估
在3个美国执业医师考试(USMLE)、印度全印度医学科学研究所(AIIMS)考试和印度全国资格暨入学考试(NEET)医学考试基准测试中,MELT-TinyLlama-1.1B-Chat-v1.0相较于TinyLlama-1.1B-Chat-v1.0平均有13.76%的性能提升。
TinyLlama-1.1B-Chat-v1.0
- medqa: {'base': {'Average': 25.49, 'STEP-1': 24.48, 'STEP-2&3': 26.64}}
- mausmle: {'base': {'Average': 19.71, 'STEP-1': 21.18, 'STEP-2': 20.69, 'STEP-3': 17.76}}
- medmcqa: {'base': {'Average': 28.52, 'MEDICINE': 29.35, 'OPHTHALMOLOGY': 28.57, 'ANATOMY': 30.82, 'PATHOLOGY': 29.07, 'PHYSIOLOGY': 20.45, 'DENTAL': 30.09, 'RADIOLOGY': 14.29, 'BIOCHEMISTRY': 22.31, 'ANAESTHESIA': 26.09, 'GYNAECOLOGY': 24.84, 'PHARMACOLOGY': 32.02, 'SOCIAL': 31.11, 'PEDIATRICS': 31.82, 'ENT': 28.95, 'SURGERY': 31.45, 'MICROBIOLOGY': 26.03, 'FORENSIC': 16.28, 'PSYCHIATRY': 22.22, 'SKIN': 40.0, 'ORTHOPAEDICS': 21.43, 'UNKNOWN': 0.0}}
- 平均: 24.57%
MELT-TinyLlama-1.1B-Chat-v1.0
- medqa: {'base': {'Average': 29.5, 'STEP-1': 28.17, 'STEP-2&3': 31.03}}
- mausmle: {'base': {'Average': 21.51, 'STEP-1': 27.06, 'STEP-2': 19.54, 'STEP-3': 18.69}}
- medmcqa: {'base': {'Average': 32.84, 'MEDICINE': 27.72, 'OPHTHALMOLOGY': 38.1, 'ANATOMY': 39.73, 'PATHOLOGY': 32.56, 'PHYSIOLOGY': 35.61, 'DENTAL': 32.23, 'RADIOLOGY': 41.07, 'BIOCHEMISTRY': 33.06, 'ANAESTHESIA': 39.13, 'GYNAECOLOGY': 22.88, 'PHARMACOLOGY': 32.58, 'SOCIAL': 26.67, 'PEDIATRICS': 34.09, 'ENT': 42.11, 'SURGERY': 33.47, 'MICROBIOLOGY': 30.14, 'FORENSIC': 41.86, 'PSYCHIATRY': 55.56, 'SKIN': 60.0, 'ORTHOPAEDICS': 35.71, 'UNKNOWN': 100.0}}
- 平均: 27.95%
测试数据、因素和指标
测试数据
免责声明
使用此类大语言模型不提供任何形式的保证。尽管已尽力确保生成信息的准确性、完整性和可靠性,但需注意这些模型可能会产生不准确、过时或不适合特定用途的响应。建议用户在依赖这些模型生成的信息时保持谨慎和判断力。其输出不应被视为专业、法律、医疗、财务或任何其他形式的建议。对于特定问题或关键决策,建议寻求专家建议或咨询相关权威来源。模型的创建者、开发者和提供者对因使用、依赖或解释这些模型提供的信息而产生的任何损害、损失或后果不承担任何责任。用户需对其与模型的交互和使用生成内容负全部责任。使用这些语言模型即表示用户接受并理解本免责声明。请注意,这些模型在不断发展,其能力、局限性和输出可能会在无事先通知的情况下发生变化。
📄 许可证
本模型使用Apache 2.0许可证。