数据集:
- Open-Orca/SlimOrca-Dedup
- teknium/openhermes
- meta-math/MetaMathQA
- migtissera/Synthia-v1.3
- THUDM/AgentInstruct
- LeoLM/German_Songs
- LeoLM/German_Poems
- LeoLM/OpenSchnabeltier
- bjoernp/ultrachat_de
- LDJnr/Capybara
支持语言:
库名称:transformers
任务类型:文本生成
许可协议:llama2
模型创建者:DiscoResearch
模型架构:llama
标签:

DiscoLM 70b 模型
DiscoLM 70b是基于Laion的LeoLM 70b开发的70B参数模型,通过额外650亿token的德语文本持续预训练,在保持(并部分提升)英语能力的同时强化了多语言能力。该模型随后结合多个热门开源指令集进行了微调。DiscoLM 70b是DiscoResearch的项目成果,由Björn Plüster完成训练。
特别感谢LAION和HessianAI为本项目提供的科学指导、协调及在超级计算机42上配置的计算资源!
目录
- 下载
- 基准测试
- 提示词格式
- 训练数据
- 致谢
- 联系我们
- 关于DiscoResearch
- 免责声明
下载
基准测试
HuggingFace排行榜
本模型仍处于早期Alpha阶段,我们不保证存在数据污染。以下为自行评估结果:
测试项目 |
得分 |
ARC(25样本) |
68.77 |
HellaSwag(10样本) |
85.41 |
MMLU(5样本) |
68.64 |
TruthfulQA(0样本) |
57.69 |
Winogrande(5样本) |
83.27 |
GSM8k(5样本) |
63.68 |
平均分 |
71.24 |
该模型现已在Open LLM Leaderboard正式排名第6位,成为基于Llama-2-70b架构的第二强模型(仅次于TigerBot 70b):
(2023年12月5日截图)
我们使用与HuggingFace LLM Leaderboard相同版本的语言模型评估工具进行测试。
FastEval测试
测试项目 |
得分 |
GSM8K |
70.6 |
数学能力 |
17.8 |
BBH |
63.4 |
MMLU |
64.7 |
平均分 |
48.87 |
当前(已停止维护的)FastEval思维链排行榜截图:

MTBench测试
{
"首轮对话": 7.9,
"次轮对话": 7.0625,
"分类表现": {
"写作": 9.55,
"角色扮演": 8.35,
"推理": 6.15,
"数学": 4.7,
"编程": 4.8,
"信息提取": 7.35,
"理工科": 9.1,
"人文社科": 9.85
},
"平均分": 7.48125
}
当前FastEval MT Bench排行榜截图:

提示词格式
本模型遵循ChatML格式:
<|im_start|>system
你是DiscoLM,一个乐于助人的助手。
<|im_end|>
<|im_start|>user
请告诉我将研究团队命名为"Disco Research"的可能原因<|im_end|>
<|im_start|>assistant
该格式可通过预定义的Transformers对话模板实现,使用apply_chat_template()方法自动格式化消息列表:
对话记录 = [
{"角色": "system", "内容": "你是DiscoLM,一个乐于助人的助手。"},
{"角色": "user", "内容": "请告诉我将研究团队命名为Disco Research的可能原因"}
]
分词器.apply_chat_template(对话记录, tokenize=False, add_generation_prompt=True)
若设置tokenize=True
和return_tensors="pt"
,将返回可直接输入model.generate()
的分词后对话格式。
训练数据
DiscoLM 70b采用"暴力验证"/"概念验证"方式进行数据筛选,训练使用了以下数据集:
衷心感谢所有数据集提供者!
联系我们
最佳联系方式是通过我们的Discord社区。
关于探索研究
DiscoResearch是一个充满抱负的开放研究社区。这里汇聚来自多元领域的研究者,通过知识融合创造突破性的大型语言模型。欢迎加入我们的Discord,分享您的见解,共同推进开放LLM研究!
致谢
Disco 70b是探索研究团队的项目成果,由Björn Plüster完成训练。Jan Harries提供了技术建议、协调支持并协助编写模型卡片。AutoMeta同样贡献了关键技术建议,并协助筛选高质量数据集。训练所用计算资源由HessianAI与LAION合作提供,特别感谢Patrick Schramowski的支持。
我们站在巨人的肩膀上:特别致谢Laion提供LeoLM 70b基础模型(尤其是促成合作的Christoph Schuhmann),TheBloke提供量化版本,winglian开发训练工具Axolotl及SlimOrca数据集,以及garage-bAInd、Teknium、Migel Tissera、MetaMath和LDJnr的优质数据集(如有遗漏请与我们联系)。

免责声明
本模型许可证不构成法律建议。我们对第三方使用该模型的行为不承担责任。该模型仅限研究用途,原始Llama2许可证及所有训练数据集的限制条款均适用。