许可协议:Apache-2.0
支持语言:
- 英语
任务类型:文本生成
库名称:transformers
标签:
- 自然语言处理
- 大语言模型
K2:完全可复现的大语言模型,以减少35%计算量的优势超越Llama 2 70B
LLM360通过K2揭秘了Llama 2 70B的训练方案。K2实现了完全透明化——我们开源了所有相关资源,包括代码、数据、模型检查点、中间结果等。
K2核心信息:
- 650亿参数规模的大语言模型
- 训练token量:1.4万亿
- 支持语言:英语
- 发布模型:基础版、对话版
- 两阶段训练流程
- 许可协议:Apache 2.0
K2由MBZUAI、Petuum和LLM360联合开发。
LLM360模型性能评估体系
LLM360性能评估集合是一套全面的评估方案,包含通用领域和垂直领域的测试项目,用于系统评估模型的知识储备和功能表现。
评估涵盖标准基准测试、医学知识、数学能力和编程水平等领域。更多评估细节请访问此处。
详细分析报告请查阅K2在Weights and Biases平台的项目页面:点击查看
开放大模型排行榜
评估项目 |
标准分 |
原始分 |
IFEval |
22.52 |
23 |
BBH |
28.22 |
50 |
Math Lvl 5 |
2.04 |
2 |
GPQA |
3.58 |
28 |
MUSR |
8.55 |
40 |
MMLU-PRO |
22.27 |
30 |
平均分 |
14.53 |
35.17 |
K2演进画廊
K2画廊展示了不同训练阶段检查点对各类提示词的响应结果,直观呈现模型随时间推移的进化过程。该功能灵感源自The Bloom Book项目。
点击访问K2画廊
训练数据集与配比
以下数据配比方案使K2达到了与Llama 2 70B相当的训练效果。完整数据序列请访问此处。
数据集 |
初始token量 |
复用倍数 |
总token量 |
占比 |
dm-math |
43.3亿 |
3倍 |
130亿 |
1% |
pubmed-abstracts |
47.7亿 |
3倍 |
143亿 |
1.1% |
uspto |
47.7亿 |
3倍 |
143亿 |
1.1% |
pubmed-central |
260亿 |
1倍 |
260亿 |
2% |
redpajama.arxiv |
273亿 |
1倍 |
273亿 |
2.1% |
starcoder.spm |
676亿 |
0.5倍 |
338亿 |
2.6% |
starcoder.fim |
676亿 |
0.5倍 |
338亿 |
2.6% |
redpajama.stackexchange |
611亿 |
1倍 |
611亿 |
4.7% |
starcoder |
1326亿 |
0.5倍 |
663亿 |
5.1% |
pile-of-law |
767亿 |
1倍 |
767亿 |
5.9% |
redpajama.book |
806亿 |
1倍 |
806亿 |
6.2% |
s2orc |
1079亿 |
1倍 |
1079亿 |
8.3% |
redpajama.wikipedia |
221亿 |
6倍 |
1326亿 |
10.2% |
refinedweb |
6123亿 |
1倍 |
6123亿 |
47.1% |
总计 |
- |
- |
1.3万亿 |
100% |
LLM360研究套件
第二阶段 - 最后10个检查点
第一阶段 - 最后10个检查点
[查询全部分支命令:git branch -a]
LLM360预训练套件
我们为技术爱好者、AI从业者及学术/工业界研究人员提供了循序渐进的预训练技术教程,详见此处。
LLM360开发者套件
我们为技术爱好者、AI从业者及研究人员提供了详细的微调教程,详见此处。
加载K2模型
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("LLM360/K2")
model = AutoModelForCausalLM.from_pretrained("LLM360/K2")
prompt = '地球上最高的山峰是哪座?'
input_ids = tokenizer(prompt, return_tensors="pt").input_ids
gen_tokens = model.generate(input_ids, do_sample=True, max_new_tokens=128)
print("-"*20 + "模型输出" + 20*'-')
print(tokenizer.batch_decode(gen_tokens)[0])
关于LLM360
LLM360是一个开放研究实验室,通过开源大模型研发推动社区共建AGI。
我们通过建立技术标准和开发工具来突破大语言模型的能力边界,促进知识传递与技术创新。我们坚信人工通用智能(AGI)应该由社区共同创造、为社区服务。通过构建开放生态系统——整合公平的计算资源、高质量数据和流动的技术知识,我们将确保AGI发展的伦理性和技术普惠性。
访问官网
引用文献
BibTeX格式:
@article{K2,
title={LLM360 K2-65B: 全面透明开源大语言模型的规模化实践},
author={
刘正忠、谭博文
和王弘毅、Willie Neiswanger、田华涛
和李浩南、Fajri Koto、王玉琪、孙素琪
和Omkar Pangarkar、Richard Fan、顾毅、Victor Miller
和马立群、唐丽萍、Nikhil Ranjan、庄永浩
和何国伟、王仁喜、邓明凯、Robin Algayres
和李远志、沈志强、Preslav Nakov
和邢波
},
year={2024},
}