许可证: afl-3.0
数据集:
- photonmz/roco-instruct-65k
语言:
- en
库名称: transformers
流水线标签: image-to-text
标签:
- 生物学
- 医学
BabyDoctor模型卡
本文档记录了BabyDoctor模型,这是一个多模态大语言模型(MLLM),融合了CLiP和LLaMA 2的能力,既能理解和生成文本,也能理解图像。该模型经过微调,能够用医学术语解读X光、超声波、核磁共振和CT扫描等放射学图像。
模型详情
模型描述
BabyDoctor采用自回归语言模型,结合了优化的Transformer架构和视觉编码器。微调版本利用监督微调(SFT)、低秩适应(LoRA)和量化LoRA(QLoRA)技术,以提升在医学领域的专业化能力。
- 开发者: Markus Zhang和Vir Chau
- 模型类型: 多模态大语言模型
- 支持语言(NLP): 英语
- 许可证: 仅限学术研究。需遵守LLaMa 2、CLiP、GPT-4和LLaVA的许可协议。
- 基础模型: 基础LLM:LLaMA-2-7B-Chat;基础视觉编码器:CLIP-L
模型来源
用途
直接使用
BabyDoctor旨在用于英语研究用途,主要为医疗健康领域提供类似助手的聊天功能,解读和分析放射学图像。
下游用途
BabyDoctor的潜在应用包括但不限于医疗健康领域的研究、学术项目和非生产性应用。
超出范围的使用
BabyDoctor不得以任何违反适用法律法规(包括贸易合规法律)的方式使用,不得用于英语以外的语言,或以其他任何违反BabyDoctor可接受使用政策和许可协议的方式使用。该模型尚未准备好用于面向用户的生产环境,需要进一步调优。
偏见、风险和局限性
虽然BabyDoctor旨在提供有用的医疗和健康相关建议,但不能替代专业医疗建议。可能存在某些医学或健康领域其解读不够准确的情况。该模型无法访问个人健康记录或特定患者信息,其建议不应取代与医疗专业人员的咨询。
如何开始使用该模型
有关使用BabyDoctor复现结果及在自有数据上运行模型的说明,请参阅BabyDoctor代码库。
训练详情
训练数据
BabyDoctor使用LLaVA-Instruct-80K和Roco-Instruct-65K数据集进行训练,这两个数据集分别是指令遵循和医学相关数据集。预训练或微调数据集中未包含Meta用户数据。
预训练数据的截止时间为2022年9月,但部分调优数据更新至2023年7月。
训练流程
预处理
模型基于LLaMA 2-7B Chat和CLiP,在2T tokens和1-100M图像上进行预训练。LLaVA将CLiP投影到LLaMa 2上,随后使用合成的GPT-4指令遵循数据进行训练。最后,BabyDoctor经过微调以解读放射学图像。
训练超参数
- 基础LLM: LLaMA-2-7B-Chat
- 基础视觉编码器: CLiP-L
- 预训练数据: LCS-558K
- 预训练计划: 1e
- 微调数据1: LLaVA-Instruct-80K
- 微调计划1: lora(低秩域适应)1 epoch
- 微调数据2: roco-instruct-65k
- 微调计划: 量化lora(qlora)1 epoch 4-bit
速度、规模和时间
训练在Lambda Labs的1xA10云GPU上耗时8小时。
评估
测试数据、因素和指标
鉴于其解读放射学图像的特殊用途,BabyDoctor尚未像LLaMA 2模型那样在广泛任务上进行评估。
建议
用户(包括直接使用和下游使用)应了解模型的局限性和预期用途。不应将BabyDoctor生成的信息视为专业医疗建议的替代品。
引用
BibTeX格式:
@misc{photomz2023,
author = {Markus Zhang, Vir Chau},
title = {BabyDoctor},
year = {2023},
howpublished = {\url{https://github.com/photomz/BabyDoctor}},
note = {GitHub}
}
APA格式:
@misc{photomz2023,
author = {{Zhang, M.} and {Chau, V.}},
title = {BabyDoctor},
year = {2023},
howpublished = {\url{https://github.com/photomz/BabyDoctor}},
note = {GitHub}
}
如有问题,请提交GitHub issue联系我们!