许可证:bigscience-bloom-rail-1.0
数据集:
BioMedLM 2.7B 模型卡
注:此模型之前名为 PubMedGPT 2.7B,但由于 NIH 拥有 "PubMed" 的商标权,我们应其要求进行了更名。
论文:BioMedLM:一个基于生物医学文本训练的 27 亿参数语言模型
BioMedLM 2.7B 是一个全新的语言模型,专门基于 The Pile 中的生物医学摘要和论文进行训练。这款 GPT 风格的模型在多种生物医学 NLP 任务中表现出色,包括在 MedQA 生物医学问答任务中以 50.3% 的准确率创下新纪录。
作为自回归语言模型,BioMedLM 2.7B 也具备自然语言生成能力。然而,我们目前仅初步探索了该模型的生成能力及其局限性,并强调其生成功能仅适用于研究目的,不适合生产环境。通过发布此模型,我们希望推动生物医学 NLP 应用的发展,以及负责任地训练和使用领域特定语言模型的最佳实践;可靠性、真实性和可解释性是我们最关注的问题。
此模型由 斯坦福 CRFM 和 MosaicML 合作开发。
目录
模型详情
模型描述
BioMedLM 2.7B 是一个全新的语言模型,专门基于 The Pile 中的生物医学摘要和论文进行训练。这款 GPT 风格的模型在多种生物医学 NLP 任务中表现出色,包括在 MedQA 生物医学问答任务中以 50.3% 的准确率创下新纪录。
作为自回归语言模型,BioMedLM 2.7B 也具备自然语言生成能力。然而,我们目前仅初步探索了该模型的生成能力及其局限性,并强调其生成功能仅适用于研究目的,不适合生产环境。通过发布此模型,我们希望推动生物医学 NLP 应用的发展,以及负责任地训练和使用领域特定语言模型的最佳实践;可靠性、真实性和可解释性是我们最关注的问题。
此模型由 斯坦福 CRFM 和 MosaicML 合作开发。
用途
此模型采用 BigScience Open RAIL-M 许可证(用于 BLOOM)授权。请注意,该许可证禁止将模型(或其衍生品)用于“提供医疗建议和医疗结果解读”等用途。如果您不确定您的用例是否符合该限制的“精神”,请联系我们讨论。
直接用途
此模型可用于生成文本,适用于实验和了解其能力。但不应直接用于生产或可能直接影响人们的工作。
下游用途
我们主要通过微调此模型用于下游问答任务,并推荐这种使用方式。
超出范围用途
我们不建议在生产环境中使用此模型进行自然语言生成,无论是否经过微调。
偏见、风险与限制
大量研究探讨了语言模型的偏见和公平性问题(例如 Sheng et al. (2021))。模型生成的预测可能包含针对受保护群体、身份特征以及敏感社会职业群体的有害刻板印象。
建议
尽管此模型能够生成自然语言文本,但我们仅初步探索了其能力和局限性。在医学等领域理解这些局限性尤为重要。因此,我们强烈反对在生产环境中使用此模型进行自然语言生成。
训练详情
训练数据
此模型基于 The Pile 中的 PubMed 摘要和全文进行训练。
训练流程
模型在 MosaicML Cloud 平台上训练,该平台专为大型负载(如 LLM)设计。使用 Composer 训练库和 PyTorch FSDP,我们轻松实现了跨 128 块 A100-40GB GPU 的多节点训练,总训练时长约 6.25 天。模型以批量大小=1024、序列长度=1024 训练了 3000 亿词元,使用解耦 AdamW 优化器,参数如下:
|
|
学习率 |
1.6e-4 |
eps |
1e-8 |
betas |
[0.9, 0.95] |
权重衰减 |
1.6e-5 |
训练过程非常顺利,未出现任何发散问题。
在准备训练时,我们不确定训练到 3000 亿词元对语言模型困惑度和下游任务性能的益处。虽然大多数同规模模型(如 GPT Neo 2.7B)训练到 3000-4000 亿词元,但它们使用的数据集远大于 PubMed。例如,The Pile 的大小是其 PubMed 子集的 8 倍。
幸运的是,我们在整个训练过程中持续观察到验证集和训练集困惑度的稳定提升,初步实验也表明训练到 3000 亿词元能提高下游任务性能。我们的结论是:尽管这意味着数据遍历次数远超同类模型,但训练到 3000 亿词元确实值得。
预处理
模型使用基于 PubMed 摘要训练的自定义分词器。我们发现,构建领域特定模型时,使用基于领域内文本训练的分词器对最大化下游任务性能至关重要。关键优势在于常见生物医学术语能以完整词元表示。
例如,以下术语在生物医学分词器中均作为单个词元处理,而在标准 GPT-2 分词器中会被拆分为多个子词:
|
|
chromatography |
chrom/atography |
cytotoxicity |
cyt/ot/oxicity |
Immunohistochemistry |
Immun/oh/ist/ochemistry |
photosynthesis |
photos/ynthesis |
probiotic |
prob/iotic |
这使得模型能将概念信息编码在单个词元表示中,而非分散到与许多其他术语共享的子词(如“oh”)中。
技术规格
模型架构与目标
BioMedLM 2.7B 是标准的 GPT-2 实现(使用 Flash Attention 训练),超参数如下:
|
|
隐藏层大小 |
2560 |
注意力头数 |
20 |
层数 |
32 |
词表大小 |
28896 |
序列长度 |
1024 |
计算基础设施
模型在 MosaicML Cloud 平台上训练,该平台专为大型负载(如 LLM)设计。使用 Composer 训练库和 PyTorch FSDP,我们轻松实现了跨 128 块 A100-40GB GPU 的多节点训练,总训练时长约 6.25 天。