语言:
- 英文
许可证: apache-2.0
数据集:
- cerebras/SlimPajama-627B
- bigcode/starcoderdata
模型索引:
- 名称: TinyLlama-1.1B-intermediate-step-1431k-3T
结果:
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: AI2推理挑战赛(25样本)
类型: ai2_arc
配置: ARC-挑战
分割: 测试
参数:
少量样本数: 25
指标:
- 类型: 标准化准确率
值: 33.87
名称: 标准化准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T
名称: 开放LLM排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: HellaSwag(10样本)
类型: hellaswag
分割: 验证
参数:
少量样本数: 10
指标:
- 类型: 标准化准确率
值: 60.31
名称: 标准化准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T
名称: 开放LLM排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MMLU(5样本)
类型: cais/mmlu
配置: 全部
分割: 测试
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 26.04
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T
名称: 开放LLM排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: TruthfulQA(0样本)
类型: truthful_qa
配置: 多项选择
分割: 验证
参数:
少量样本数: 0
指标:
- 类型: mc2
值: 37.32
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T
名称: 开放LLM排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: Winogrande(5样本)
类型: winogrande
配置: winogrande_xl
分割: 验证
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 59.51
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T
名称: 开放LLM排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: GSM8k(5样本)
类型: gsm8k
配置: 主要
分割: 测试
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 1.44
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T
名称: 开放LLM排行榜
TinyLlama-1.1B
https://github.com/jzhang38/TinyLlama
TinyLlama项目旨在预训练一个1.1B参数的Llama模型,使用3万亿标记。通过一些适当的优化,我们可以在“仅”90天内使用16块A100-40G GPU完成这一目标🚀🚀。训练已于2023-09-01开始。
我们采用了与Llama 2完全相同的架构和分词器。这意味着TinyLlama可以即插即用到许多基于Llama的开源项目中。此外,TinyLlama仅有1.1B参数,非常紧凑。这种紧凑性使其能够满足多种对计算和内存占用有限制的应用需求。
本集合
本集合包含1T修复后的所有检查点。分支名称表示步骤和已看到的标记数量。
评估
模型 |
预训练标记 |
HellaSwag |
Obqa |
WinoGrande |
ARC_c |
ARC_e |
boolq |
piqa |
平均 |
Pythia-1.0B |
300B |
47.16 |
31.40 |
53.43 |
27.05 |
48.99 |
60.83 |
69.21 |
48.30 |
TinyLlama-1.1B-intermediate-step-50K-104b |
103B |
43.50 |
29.80 |
53.28 |
24.32 |
44.91 |
59.66 |
67.30 |
46.11 |
TinyLlama-1.1B-intermediate-step-240k-503b |
503B |
49.56 |
31.40 |
55.80 |
26.54 |
48.32 |
56.91 |
69.42 |
48.28 |
TinyLlama-1.1B-intermediate-step-480k-1007B |
1007B |
52.54 |
33.40 |
55.96 |
27.82 |
52.36 |
59.54 |
69.91 |
50.22 |
TinyLlama-1.1B-intermediate-step-715k-1.5T |
1.5T |
53.68 |
35.20 |
58.33 |
29.18 |
51.89 |
59.08 |
71.65 |
51.29 |
TinyLlama-1.1B-intermediate-step-955k-2T |
2T |
54.63 |
33.40 |
56.83 |
28.07 |
54.67 |
63.21 |
70.67 |
51.64 |
TinyLlama-1.1B-intermediate-step-1195k-2.5T |
2.5T |
58.96 |
34.40 |
58.72 |
31.91 |
56.78 |
63.21 |
73.07 |
53.86 |
TinyLlama-1.1B-intermediate-step-1431k-3T |
3T |
59.20 |
36.00 |
59.12 |
30.12 |
55.25 |
57.83 |
73.29 |
52.99 |
详细结果可查看此处
指标 |
值 |
平均 |
36.42 |
AI2推理挑战赛(25样本) |
33.87 |
HellaSwag(10样本) |
60.31 |
MMLU(5样本) |
26.04 |
TruthfulQA(0样本) |
37.32 |
Winogrande(5样本) |
59.51 |
GSM8k(5样本) |
1.44 |