许可证:llama3
数据集:
- Henrychur/MMedC
语言:
- 英语
- 中文
- 日语
- 法语
- 俄语
- 西班牙语
标签:
- 医疗
MMedLM
💻GitHub仓库 🖨️arXiv论文
《构建多语言医学语言模型》的官方模型权重。
简介
本仓库包含MMed-Llama 3,一个拥有80亿参数的多语言医学基础模型。MMed-Llama 3基于Llama 3架构,并在MMedC(一个全面的多语言医学语料库)上进行了进一步预训练,从而增强了模型的医学领域知识。
模型在MMedC上的预训练参数如下:
- 迭代次数:15000
- 全局批次大小:512
- 截断长度:8192
- 学习率:2e-5
加载模型的方式如下:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Henrychur/MMed-Llama-3-8B")
model = AutoModelForCausalLM.from_pretrained("Henrychur/MMed-Llama-3-8B", torch_dtype=torch.float16)
动态
[2024.2.21] 我们的预印本论文已在arXiv发布。点击此处查看研究成果。
[2024.2.20] 我们发布了MMedLM和MMedLM 2。通过在MMedC上进行自回归持续训练,这些模型的性能超越了所有其他开源模型,甚至在MMedBench上可与GPT-4媲美。
[2023.2.20] 我们发布了MMedC,一个包含255亿词符的多语言医学语料库。
[2023.2.20] 我们发布了MMedBench,一个带有解析的多语言医学多选题评测基准。查看排行榜请访问此处。
MMedBench评测结果
经过进一步预训练的MMedLM 2展现了其在跨语言医学领域的卓越性能。
方法 |
规模 |
年份 |
MMedC |
MMedBench |
英语 |
中文 |
日语 |
法语 |
俄语 |
西班牙语 |
平均 |
GPT-3.5 |
- |
2022.12 |
✗ |
✗ |
56.88 |
52.29 |
34.63 |
32.48 |
66.36 |
66.06 |
51.47 |
GPT-4 |
- |
2023.3 |
✗ |
✗ |
78.00 |
75.07 |
72.91 |
56.59 |
83.62 |
85.67 |
74.27 |
Gemini-1.0 pro |
- |
2024.1 |
✗ |
✗ |
53.73 |
60.19 |
44.22 |
29.90 |
73.44 |
69.69 |
55.20 |
BLOOMZ |
7B |
2023.5 |
✗ |
训练集 |
43.28 |
58.06 |
32.66 |
26.37 |
62.89 |
47.34 |
45.10 |
InternLM |
7B |
2023.7 |
✗ |
训练集 |
44.07 |
64.62 |
37.19 |
24.92 |
58.20 |
44.97 |
45.67 |
Llama 2 |
7B |
2023.7 |
✗ |
训练集 |
43.36 |
50.29 |
25.13 |
20.90 |
66.80 |
47.10 |
42.26 |
MedAlpaca |
7B |
2023.3 |
✗ |
训练集 |
46.74 |
44.80 |
29.64 |
21.06 |
59.38 |
45.00 |
41.11 |
ChatDoctor |
7B |
2023.4 |
✗ |
训练集 |
43.52 |
43.26 |
25.63 |
18.81 |
62.50 |
43.44 |
39.53 |
PMC-LLaMA |
7B |
2023.4 |
✗ |
训练集 |
47.53 |
42.44 |
24.12 |
20.74 |
62.11 |
43.29 |
40.04 |
Mistral |
7B |
2023.10 |
✗ |
训练集 |
61.74 |
71.10 |
44.72 |
48.71 |
74.22 |
63.86 |
60.73 |
InternLM 2 |
7B |
2024.2 |
✗ |
训练集 |
57.27 |
77.55 |
47.74 |
41.00 |
68.36 |
59.59 |
58.59 |
MMedLM(我们的) |
7B |
- |
✓ |
训练集 |
49.88 |
70.49 |
46.23 |
36.66 |
72.27 |
54.52 |
55.01 |
MMedLM 2(我们的) |
7B |
- |
✓ |
训练集 |
61.74 |
80.01 |
61.81 |
52.09 |
80.47 |
67.65 |
67.30 |
MMed-Llama 3(我们的) |
8B |
- |
✓ |
训练集 |
66.06 |
79.25 |
61.81 |
55.63 |
75.39 |
68.38 |
67.75 |
- GPT和Gemini通过API在零样本设置下评估
- 开源模型在评估前需先在MMedBench训练集上进行训练
联系方式
如有任何问题,请联系qiupengcheng@pjlab.org.cn。
引用
@misc{qiu2024building,
title={Towards Building Multilingual Language Model for Medicine},
author={Pengcheng Qiu and Chaoyi Wu and Xiaoman Zhang and Weixiong Lin and Haicheng Wang and Ya Zhang and Yanfeng Wang and Weidi Xie},
year={2024},
eprint={2402.13963},
archivePrefix={arXiv},
primaryClass={cs.CL}
}