模型简介
模型特点
模型能力
使用案例
license: llama3.1 datasets:
- HPAI-BSC/Aloe-Beta-General-Collection
- HPAI-BSC/chain-of-diagnosis
- HPAI-BSC/MedS-Ins
- HPAI-BSC/ultramedical
- HPAI-BSC/pubmedqa-cot-llama31
- HPAI-BSC/medqa-cot-llama31
- HPAI-BSC/medmcqa-cot-llama31
- HPAI-BSC/headqa-cot-llama31
- HPAI-BSC/MMLU-medical-cot-llama31
- HPAI-BSC/Polymed-QA
- HPAI-BSC/Aloe-Beta-General-Collection
- HPAI-BSC/Aloe-Beta-General-Collection language:
- en library_name: transformers tags:
- biology
- medical
- healthcare pipeline_tag: question-answering
Aloe:一个经过微调的开源医疗大语言模型家族
Llama3.1-Aloe-Beta-8B是一款开源医疗大语言模型,在多项医疗任务中达到最先进水平。Aloe Beta提供四种规模版本:7B、8B、70B和72B。所有模型均基于Llama3.1和Qwen2.5两大模型家族,采用相同配方训练。
Aloe在20项医疗任务上接受训练,形成强大而通用的医疗模型。评估显示Aloe系列处于同类最佳水平。当配合RAG系统(同步发布使用时,7B和8B版本性能接近MedPalm-2、GPT4等闭源模型。在相同RAG系统下,Llama3.1-Aloe-Beta-70B和Qwen2.5-Aloe-Beta-72B超越这些私有方案,创造最先进成果。
Aloe-Beta-8B
Aloe-8B-Beta是Aloe家族的最新迭代版本,在前代Aloe-8B-Alpha基础上改进。Beta版本训练数据量是Alpha的三倍多,总计18亿token,涵盖更丰富的医疗任务和指令(如文本摘要、解释说明、诊断、文本分类、治疗建议等)。
为避免灾难性遗忘并增强函数调用等新能力,我们引入占总量20%的多样化高质量通用数据。精选数据包含数学、编程、STEM等领域的顶尖内容,以及超长指令(>8k token),全面提升模型跨领域适应力和理解力。
相比Alpha,Beta还强化了对齐与安全阶段,包括使用医疗偏好数据集和即将发布的红队测试数据集。
完整训练细节、模型融合配置及所有训练数据(含合成数据)详见下文。配套发布的还有用于测试Aloe Beta部署的RAG系统。Aloe提供医疗专项风险评估,助力系统安全使用部署。
模型详情
模型描述
- 开发机构:HPAI
- 模型类型:因果解码器架构的Transformer语言模型
- 支持语言:英语(具备其他语言能力但未正式评估)
- 许可协议:基于Meta Llama 3.1 8B,遵循Meta Llama 3许可。所有修改采用CC BY 4.0许可,使Aloe Beta模型支持商业用途。
- 基础模型:meta-llama/Llama-3.1-8B
- 论文:(即将更新)
- RAG代码库:https://github.com/HPAI-BSC/prompt_engine
模型性能
Aloe Beta在主流医疗QA数据集上经过测试(含/不含Medprompt推理技术),结果显示其竞争力,达到同规模模型的最优水平。
Beta模型专为多医疗任务优化,我们在各类医疗场景中评估其表现:
我们还在OpenLLM通用基准测试中对比模型表现。Aloe-Beta在当前主流通用基准上与SOTA通用模型竞争,并超越医疗专用模型:
使用场景
直接使用
鼓励将Aloe用于研究目的,作为构建更优医疗基础模型的阶梯。生产环境中,Aloe应在人类专家监督下使用。
禁用场景
本模型不可用于临床实践、医疗诊断或其他直接/间接医疗建议。模型可能出错并产生有害内容。禁止将Aloe用于垃圾邮件、欺诈、冒充等危害个人行为。未成年人需在监督下使用。
偏见、风险与限制
Aloe在特定提示下可能生成有害内容,并存在多种不良偏见。尽管我们已大力缓解(见下文对齐细节),但无法完全保证模型安全性。训练中避免使用任何个人数据。
我们识别出医疗LLM至少三类特殊风险:
- 医疗专业人员冒充:当前每年造成120亿美元利润的欺诈行为。Aloe可能提升此类欺骗活动效果,使其更泛滥。主要防范措施包括:普及数字化信息不可靠性及医疗注册重要性的公众教育,立法强制AI生成内容免责声明。
- 无专业监督的医疗决策:虽现代社会已存在此问题(如自我用药),但Aloe生成的高质量对话数据可能加剧自我欺骗(尤其存在谄媚倾向时)。通过定制化响应,还可生成可执行答案。主要防御手段包括:普及自我诊断危害的公众教育,在模型输出中添加免责声明和警告。
- 危险物质/操作信息获取:虽然敏感内容文献可通过图书馆、互联网、暗网等渠道获取,但LLM可能集中此类访问途径,使信息流控近乎失效。模型对齐对此有所助益,但迄今效果仍不足,因越狱方法仍可突破。
快速开始
使用以下代码启动模型。可通过Transformers流水线抽象运行对话推理,或利用Auto类配合generate()
函数。示例如下:
Transformers流水线
import transformers
import torch
model_id = "HPAI-BSC/Llama3.1-Aloe-Beta-8B"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{"role": "system", "content": "你是由巴塞罗那超级计算中心高性能人工智能组开发的医疗专家助手Aloe。你应当成为乐于助人、尊重他人且诚实的助手。"},
{"role": "user", "content": "你好。"},
]
prompt = pipeline.tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
terminators = [
pipeline.tokenizer.eos_token_id,
pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = pipeline(
prompt,
max_new_tokens=256,
eos_token_id=terminators,
do_sample=True,
temperature=0.6,
top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])
Transformers AutoModelForCausalLM
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "HPAI-BSC/Llama3.1-Aloe-Beta-8B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
messages = [
{"role": "system", "content": "你是由巴塞罗那超级计算中心高性能人工智能组开发的医疗专家助手Aloe。你应当成为乐于助人、尊重他人且诚实的助手。"},
{"role": "user", "content": "你好"},
]
input_ids = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
terminators = [
tokenizer.eos_token_id,
tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = model.generate(
input_ids,
max_new_tokens=256,
eos_token_id=terminators,
do_sample=True,
temperature=0.6,
top_p=0.9,
)
response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))
训练详情
监督微调
基于Llama 3.1使用axolotl(https://github.com/axolotl-ai-cloud/axolotl)进行SFT。
采用Deepspeed Zero-3分布式训练,硬件配置:
- 8B版本:Marenostrum 5超级计算机的32×NVIDIA Hopper H100 64GB
- 70B版本:Marenostrum 5的64×NVIDIA Hopper H100 64GB
训练数据
训练集约18亿token,包含三类数据:
- 医疗领域数据集:涵盖20项医疗任务
- 合成数据:使用Llama3.1-70B生成高质量答案扩展训练集
- 通用数据:含数学、STEM、代码、函数调用及超长上下文指令
训练参数
- 训练轮次:3
- 序列长度:16384
- 优化器:adamw_torch
- 学习率:2e-5
- 学习率调度器:cosine
- 预热步数:100
- 权重衰减:0
- 梯度检查点:启用
- Zero 3:启用
- 总批次大小:128
- 单设备批次大小:1
- 梯度累积步数:4
模型融合
使用DARE_TIES技术将训练模型与Llama-3.1-Instruct模型融合,采用Mergekit工具实现。
模型对齐
通过直接偏好优化(DPO)技术分两阶段对齐:
- 通用DPO对齐:结合医疗、通用偏好及安全数据,使用HPAI-BSC/Aloe-Beta-DPO数据集。将数据分五部分,每块训练1轮,学习率2e-7。
- 红队对齐:增强模型抗攻击能力,数据集即将发布。此阶段学习率1e-7。
使用OpenRLHF库,在Marenostrum 5的16×NVIDIA HOOPER H100 64GB上完成对齐。通用超参数:
- 序列长度:4096
- 优化器:Fused adam
- 总批次大小:128
- 单设备批次大小:1
- 梯度累积步数:8
- Beta值:0.1
评估
测试数据与指标
测试数据集
- ACI-BENCH
- MTS-Dialog
- MedText
- Medical Text classification
- OLAPH
- CareQA Open
- MedDialog
- MEDIQA QA
- Meddialog Qsumm
- Biored
- MIMIC-III
- Medical Prescription
- MedQA (USMLE)
- MedMCQA
- PubMedQA
- MMLU-Medical
- MedQA-4-Option
- CareQA
- Open LLM Leaderboard 2
评估指标
- 准确率:适用于多选题问答任务评估
- Rouge1:衡量系统输出与标准答案的单字重叠率
评估总结
为对比Aloe与顶尖开源模型(通用型与医疗专用),我们采用PubMedQA、MedMCQA、MedQA和MMLU(仅六项医疗任务)等主流医疗数据集,以及高可靠性的新基准CareQA。虽然MCQA基准能有效评估模型处理结构化查询能力,但不足以代表医疗实践的全部挑战。基于此,Aloe-Beta作为Aloe家族的新里程碑,其设计超越了Aloe-Alpha的多选题问答范畴。
基准测试表明,Aloe训练显著提升了Llama31-8B-Instruct的性能。Llama31-Aloe-Beta-8B也优于Llama3-OpenBioLLM和Llama3-Med42等医疗模型,成为同规模最佳医疗LLM。
配合提示工程技术,Llama3-Aloe-8B-Beta性能显著提升。Medprompt技术使准确率提高7%,此后Llama31-Aloe-8B-Beta仅落后于Llama-3.1-70B-Instruct或MedPalm-2等更大模型。这一改进在OpenLLM排行榜和其他医疗任务中基本一致。
环境影响
- 硬件类型:32×H100
- 8B版本耗时:544 GPU小时
- 70B版本耗时:4500 GPU小时
- 硬件提供商:巴塞罗那超级计算中心(BSC)
- 计算区域:西班牙
- 碳排放量:34.1千克CO2
作者
Aloe Beta由巴塞罗那超级计算中心-BSC的高性能人工智能研究组开发。主要作者包括Jordi Bayarri Planas、Ashwin Kumar Gururajan和Dario Garcia-Gasulla。红队测试由Adrian Tormos主导。
联系邮箱:hpai@bsc.es
引用
若在发表作品中引用本仓库,请引用对应论文:
@article{garcia2025aloe,
title={The Aloe Family Recipe for Open and Specialized Healthcare LLMs},
author={Garcia-Gasulla, Dario and Bayarri-Planas, Jordi and Gururajan, Ashwin Kumar and Lopez-Cuena, Enrique and Tormos, Adrian and Hinjos, Daniel and Bernabeu-Perez, Pablo and Arias-Duart, Anna and Martin-Torres, Pablo Agustin and Gonzalez-Mallo, Marta and others},
year={2025},
eprint={2505.04388},
archivePrefix={arXiv},
}


