🚀 MediLlama-3.2模型卡片
MediLlama-3.2是Meta的LLaMA 3.2(3B Instruct)的微调版本,专为医疗保健和医学领域的特定应用而设计。该模型针对医疗问答、症状检查和患者教育等任务进行了优化。
🚀 快速开始
import torch
from transformers import pipeline
model_id = "InferenceLab/MediLlama-3.2"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a helpful Medical assistant."},
{"role": "user", "content": "Hi! How are you?"},
]
outputs = pipe(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])
✨ 主要特性
- 基于Meta的LLaMA 3.2(3B Instruct)进行微调,适用于医疗保健和医学领域的特定应用。
- 经过监督微调(SFT),可处理英语医疗场景,包括诊断查询、治疗建议和一般医疗建议。
- 可直接用作医疗和健康相关应用中的聊天机器人或虚拟助手,也可集成到更大的远程医疗系统中。
📚 详细文档
模型详情
模型描述
此模型是LLaMA 3.2 3B Instruct的特定领域适配版本。它通过在医疗数据集上进行监督微调(SFT),以处理包括诊断查询、治疗建议和一般医疗建议等英语医疗场景。
属性 |
详情 |
开发者 |
InferenceLab |
模型类型 |
医疗聊天机器人 |
语言(NLP) |
英语 |
许可证 |
Apache 2.0 |
微调基础模型 |
meta-llama/Llama-3.2-3B-Instruct |
使用方式
直接使用
MediLlama-3.2可直接用作医疗和健康相关应用中的聊天机器人或虚拟助手。适用于教育内容、初步症状分诊和研究目的。
下游使用
在进行进一步的特定任务微调后,可集成到更大的远程医疗系统、临床文档工具或诊断辅助工具中。
不适用场景
- 未经专家验证,不得用于实时诊断或治疗决策。
- 不适用于高风险或危及生命的紧急响应。
- 未针对儿科或高度专业化的医学领域进行训练。
偏差、风险和局限性
尽管该模型在医疗数据上进行了训练,但仍可能存在以下问题:
- 源数据中的偏差
- 幻觉或错误建议
- 过时或非特定地区的医疗建议
建议
用户应与认证的医疗专业人员验证输出结果。此模型仅用于研究和原型设计,未经监管合规不得用于临床部署。
训练详情
训练数据
模型使用经过清理和预处理的医疗问答数据集、合成的医患对话以及公开可用的健康论坛进行训练。已移除受保护的健康信息(PHI)。
训练过程
使用TRL和Unsloth库进行监督微调(SFT)。
预处理
使用LLaMA分词器进行分词,并采用特殊的医疗指令格式。
训练超参数
速度、大小、时间
评估
测试数据、因素和指标
测试数据
包括未见的医疗问答对、合成测试用例和MedQA衍生的示例。
因素
指标
- 准确率:81.3%
- BLEU:34.5
- ROUGE-L:62.2
结果
总结
模型对未见提示表现出良好的泛化能力,在一般医疗对话中具有竞争力。对于肿瘤学或罕见疾病等专业领域,还需要进一步微调。
模型审查
建议使用可解释性工具(如LLaMA-MedLens,若可用)来解释模型决策。
环境影响
- 硬件类型:4×NVIDIA A100 40GB
- 使用时长:12小时
- 云服务提供商:AWS
- 计算区域:us-west-2
- 碳排放:约35.8 kg CO2eq(估计值)
技术规格
模型架构和目标
- 基于Meta LLaMA 3.2 3B Instruct
- 仅解码器的Transformer架构
- 目标:带指令微调的因果语言建模(CLM)
计算基础设施
硬件
软件
- Python 3.10
- Transformers(v4.40+)
- TRL
- Unsloth
- PyTorch 2.1
术语表
- SFT:监督微调
- BLEU:双语评估替补
- ROUGE:面向召回率的摘要评估
更多信息
如需合作、部署帮助或微调扩展,请联系开发者。
模型卡片作者