许可证:Apache-2.0
数据集:
- FreedomIntelligence/ApolloMoEDataset
支持语言:
- 阿拉伯语
- 英语
- 中文
- 韩语
- 日语
- 蒙古语
- 泰语
- 越南语
- 老挝语
- 马尔加什语
- 德语
- 葡萄牙语
- 西班牙语
- 法语
- 俄语
- 意大利语
- 克罗地亚语
- 加利西亚语
- 捷克语
- 科西嘉语
- 拉丁语
- 乌克兰语
- 波斯尼亚语
- 保加利亚语
- 世界语
- 阿尔巴尼亚语
- 丹麦语
- 梵语
- 瓜拉尼语
- 塞尔维亚语
- 斯洛伐克语
- 苏格兰盖尔语
- 卢森堡语
- 印地语
- 库尔德语
- 马耳他语
- 希伯来语
- 林加拉语
- 班巴拉语
- 斯瓦希里语
- 伊博语
- 卢旺达语
- 豪萨语
评估指标:
基础模型:
- FreedomIntelligence/Apollo2-7B
任务标签:问答
标签:
Apollo2-7B-GGUF
原始模型:Apollo2-7B
开发者:FreedomIntelligence
量化说明
使用llama.cpp-b3938配合基于Exllamav2校准数据集的imatrix文件生成。
本模型适用于与llama.cpp兼容的应用,如Text-Generation-WebUI、KoboldCpp、Jan、LM Studio等众多工具。
2024年12月17日:更新说明文档。近期llama.cpp似乎移除了Q4_0_4_4、Q4_0_4_8和Q4_0_8_8的支持。虽然保留这些量化版本,但可能已不再适用。
2025年2月3日:新增Q4_0和IQ4_NL量化版本,作为新版llama.cpp中ARM设备的Q4_0_X_Y量化替代方案。
原始模型说明
为更多语言普及医疗大语言模型
覆盖12种主要语言(英语、中文、法语、印地语、西班牙语、阿拉伯语、俄语、日语、韩语、德语、意大利语、葡萄牙语)及38种小语种。
📃 论文 • 🌐 演示 • 🤗 ApolloMoEDataset • 🤗 ApolloMoEBench • 🤗 模型集 •🌐 Apollo项目 • 🌐 ApolloMoE项目

🌈 更新
- [2024.10.15] ApolloMoE代码库正式发布!🎉
语言覆盖
12种主要语言与38种小语种
点击查看语言覆盖详情

架构
点击查看混合专家路由示意图

性能表现
密集模型
🤗 Apollo2-0.5B • 🤗 Apollo2-1.5B • 🤗 Apollo2-2B
🤗 Apollo2-3.8B • 🤗 Apollo2-7B • 🤗 Apollo2-9B
点击查看密集模型结果

后混合专家模型
🤗 Apollo-MoE-0.5B • 🤗 Apollo-MoE-1.5B • 🤗 Apollo-MoE-7B
点击查看后混合专家模型结果

使用格式
Apollo2
- 0.5B/1.5B/7B:用户:{查询}\n助手:{回复}<|endoftext|>
- 2B/9B:用户:{查询}\n助手:{回复}<eos>
- 3.8B:<|用户|>\n{查询}<|结束|><|助手|>\n{回复}<|结束|>
Apollo-MoE
- 0.5B/1.5B/7B:用户:{查询}\n助手:{回复}<|endoftext|>
数据集与评估
结果复现
点击展开
以Apollo2-7B或Apollo-MoE-0.5B为例:
-
下载项目数据集:
bash 0.download_data.sh
-
为特定模型准备测试/验证数据:
bash 1.data_process_test&dev.sh
-
准备训练数据(预生成token化数据):
bash 2.data_process_train.sh
-
训练模型:
- 多节点训练请参考./src/sft/training_config/zero_multi.yaml
bash 3.single_node_train.sh
-
模型评估:生成基准测试分数
bash 4.eval.sh
引用
如需使用本数据集进行训练或评估,请引用:
@misc{zheng2024efficientlydemocratizingmedicalllms,
title={通过语言家族专家混合高效普及50种语言的医疗大模型},
author={郑国瑞、王希东、梁巨浩、陈诺、郑玉平、王本有},
year={2024},
eprint={2410.10626},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv