基础模型:
- BioMistral/BioMistral-7B
- mistralai/Mistral-7B-Instruct-v0.1
库名称: transformers
标签:
- mergekit
- 合并
- slerp
- 医学
- 生物学
许可证: apache-2.0
数据集:
- pubmed
语言:
- 法语
- 英语
- 西班牙语
- 意大利语
- 波兰语
- 荷兰语
- 德语
管道标签: 文本生成
BioMistral-7B-slerp
这是使用mergekit创建的预训练语言模型合并版本。
合并详情
合并方法
本模型采用SLERP(球面线性插值)合并方法。
合并模型
合并包含以下模型:
配置参数
生成本模型的YAML配置如下:
切片:
- 源模型:
- 模型: mistralai/Mistral-7B-Instruct-v0.1
层级范围: [0, 32]
- 模型: BioMistral/BioMistral-7B
层级范围: [0, 32]
合并方法: slerp
基础模型: mistralai/Mistral-7B-Instruct-v0.1
参数:
t:
- 过滤器: self_attn
值: [0, 0.5, 0.3, 0.7, 1]
- 过滤器: mlp
值: [1, 0.5, 0.7, 0.3, 0]
- 值: 0.5
数据类型: bfloat16
BioMistral:面向医学领域的开源预训练大语言模型集合
摘要:
近年来,大语言模型(LLMs)展现出卓越的多功能性,在医疗健康等专业领域具有广阔应用前景。尽管已有多种针对健康场景的开源LLMs,但将通用LLMs适配到医学领域仍面临重大挑战。本文介绍BioMistral——基于Mistral基础模型并在PubMed Central上继续预训练的生物医学领域开源LLM。我们在包含10个标准英语医学问答任务的基准测试中进行了全面评估,同时探索了通过量化和模型合并获得的轻量化模型。结果表明,BioMistral性能优于现有开源医学模型,并与专有模型具有竞争力。最后,为解决非英语数据稀缺问题并评估医学LLMs的多语言泛化能力,我们自动翻译并评估了该基准至7种其他语言,这是医学领域首次大规模多语言LLM评估。所有实验中获得的数据集、多语言评估基准、脚本和模型均已开源。
重要声明! 虽然BioMistral旨在整合来自高质量证据的医学知识,但尚未针对专业行动场景进行有效、安全或适当的知识传递优化。除非经过特定用例的充分对齐和测试(特别是在真实医疗环境中的随机对照试验),否则不建议在医疗场景中使用。BioMistral 7B可能存在尚未全面评估的内在风险和偏见,且其性能未在真实临床环境中验证。因此,我们建议仅将BioMistral 7B作为研究工具使用,禁止将其部署于生产环境用于自然语言生成或任何专业健康医疗用途。
1. BioMistral模型系列
BioMistral是基于Mistral架构、使用PubMed Central开放获取文本数据(CC0, CC BY, CC BY-SA和CC BY-ND许可)继续预训练的开源模型套件,专为医学领域设计。所有模型均在法国国家科学研究中心(CNRS)的Jean Zay超算上训练。
2. 量化模型
基础模型 |
方法 |
量化组大小 |
权重位数 |
版本 |
显存占用(GB) |
推理速度 |
下载链接 |
BioMistral-7B |
FP16/BF16 |
|
|
|
15.02 |
基准速度 |
HuggingFace |
BioMistral-7B |
AWQ |
128 |
4 |
GEMM |
4.68 |
1.41倍 |
HuggingFace |
BioMistral-7B |
AWQ |
128 |
4 |
GEMV |
4.68 |
10.30倍 |
HuggingFace |
BioMistral-7B |
BnB.4 |
|
4 |
|
5.03 |
3.25倍 |
HuggingFace |
BioMistral-7B |
BnB.8 |
|
8 |
|
8.04 |
4.34倍 |
HuggingFace |
BioMistral-7B-DARE |
AWQ |
128 |
4 |
GEMM |
4.68 |
1.41倍 |
HuggingFace |
BioMistral-7B-TIES |
AWQ |
128 |
4 |
GEMM |
4.68 |
1.41倍 |
HuggingFace |
BioMistral-7B-SLERP |
AWQ |
128 |
4 |
GEMM |
4.68 |
1.41倍 |
HuggingFace |
2. 使用BioMistral
可通过Hugging Face的Transformers库使用BioMistral。
加载模型与分词器:
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("BioMistral/BioMistral-7B")
model = AutoModel.from_pretrained("BioMistral/BioMistral-7B")
3. 监督微调基准测试
|
临床知识图谱 |
医学遗传学 |
解剖学 |
专业医学 |
大学生物学 |
大学医学 |
MedQA |
MedQA(5选项) |
PubMedQA |
MedMCQA |
平均 |
BioMistral 7B |
59.9 |
64.0 |
56.5 |
60.4 |
59.0 |
54.7 |
50.6 |
42.8 |
77.5 |
48.1 |
57.3 |
Mistral 7B Instruct |
62.9 |
57.0 |
55.6 |
59.4 |
62.5 |
57.2 |
42.0 |
40.9 |
75.7 |
46.1 |
55.9 |
|
|
|
|
|
|
|
|
|
|
|
|
BioMistral 7B集成 |
62.8 |
62.7 |
57.5 |
63.5 |
64.3 |
55.7 |
50.6 |
43.6 |
77.5 |
48.8 |
58.7 |
BioMistral 7B DARE |
62.3 |
67.0 |
55.8 |
61.4 |
66.9 |
58.0 |
51.1 |
45.2 |
77.7 |
48.7 |
59.4 |
BioMistral 7B TIES |
60.1 |
65.0 |
58.5 |
60.5 |
60.4 |
56.5 |
49.5 |
43.2 |
77.5 |
48.1 |
57.9 |
BioMistral 7B SLERP |
62.5 |
64.7 |
55.8 |
62.7 |
64.8 |
56.3 |
50.8 |
44.3 |
77.8 |
48.6 |
58.8 |
|
|
|
|
|
|
|
|
|
|
|
|
MedAlpaca 7B |
53.1 |
58.0 |
54.1 |
58.8 |
58.1 |
48.6 |
40.1 |
33.7 |
73.6 |
37.0 |
51.5 |
PMC-LLaMA 7B |
24.5 |
27.7 |
35.3 |
17.4 |
30.3 |
23.3 |
25.5 |
20.2 |
72.9 |
26.6 |
30.4 |
MediTron-7B |
41.6 |
50.3 |
46.4 |
27.9 |
44.4 |
30.8 |
41.6 |
28.1 |
74.9 |
41.3 |
42.7 |
BioMedGPT-LM-7B |
51.4 |
52.0 |
49.4 |
53.3 |
50.7 |
49.1 |
42.5 |
33.9 |
76.8 |
37.6 |
49.7 |
|
|
|
|
|
|
|
|
|
|
|
|
GPT-3.5 Turbo 1106* |
74.71 |
74.00 |
65.92 |
72.79 |
72.91 |
64.73 |
57.71 |
50.82 |
72.66 |
53.79 |
66.0 |
BioMistral 7B系列模型与基线模型的监督微调(SFT)性能对比(3次随机3样本测试的准确率↑平均值)。DARE、TIES和SLERP是合并BioMistral 7B与Mistral 7B Instruct的策略。加粗为最佳模型,下划线为次佳。*GPT-3.5 Turbo性能来自无SFT的3样本测试结果。
引用BibTeX
预印本: https://arxiv.org/abs/2402.10373
@misc{labrak2024biomistral,
title={BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains},
author={Yanis Labrak and Adrien Bazoge and Emmanuel Morin and Pierre-Antoine Gourraud and Mickael Rouvier and Richard Dufour},
year={2024},
eprint={2402.10373},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
重要提示! 直接用户和下游用户均需了解模型内在的风险、偏见和限制。虽然模型能生成自然语言文本,但我们对其能力和局限性的探索才刚刚开始。在医学等领域,理解这些局限性至关重要。因此,我们强烈反对在生产环境中部署该模型用于自然语言生成或任何专业健康医疗任务。