Llama 2
Llama 2 是一系列预训练和微调的生成文本模型,参数规模从70亿到700亿不等。本仓库为130亿参数的对话优化版本,已转换为Hugging Face Transformers格式。其他模型链接详见底部索引。
模型详情
注意:使用本模型需遵守Meta许可协议。下载权重和分词器前,请访问官网接受许可条款后再申请访问权限。
Meta开发并开源了Llama 2系列大语言模型(LLMs),包含70亿至700亿参数的预训练及微调版本。我们的微调版本Llama-2-Chat针对对话场景优化,在多数测试基准上超越开源对话模型,人工评估显示其安全性和实用性可与ChatGPT、PaLM等闭源模型媲美。
开发团队 Meta
版本变体 提供7B/13B/70B三种参数规模的预训练和微调版本
输入 仅接受文本输入
输出 仅生成文本内容
架构 Llama 2采用优化后的自回归Transformer架构,微调版本通过监督微调(SFT)和人类反馈强化学习(RLHF)对齐人类偏好。
|
训练数据 |
参数量 |
上下文长度 |
GQA |
训练token数 |
学习率 |
Llama 2 |
全新公开网络数据混合 |
7B |
4k |
× |
2.0T |
3.0×10⁻⁴ |
Llama 2 |
全新公开网络数据混合 |
13B |
4k |
× |
2.0T |
3.0×10⁻⁴ |
Llama 2 |
全新公开网络数据混合 |
70B |
4k |
√ |
2.0T |
1.5×10⁻⁴ |
Llama 2模型家族。token计数仅含预训练数据,所有模型均采用400万token的全局批次。70B大模型使用分组查询注意力(GQA)提升推理效率。
训练时间 2023年1月至7月
状态 基于离线数据的静态模型,后续将根据社区反馈持续优化安全性
许可协议 定制商业许可详见:官网链接
研究论文 "Llama-2: 开放基础与微调对话模型"
使用范围
适用场景 Llama 2适用于英语商业和研究用途。基础模型可适配多种文本生成任务,微调版本专为对话助手场景设计。
使用对话版本时需遵循特定格式规范,包括INST
、<<SYS>>
标签,BOS
/EOS
标记及换行处理(建议对输入执行strip()
避免多余空格),详见GitHub参考代码:对话生成。
禁用场景 违反法律法规的使用(含贸易合规);非英语场景;违反《Llama 2可接受使用政策》及许可协议的行为。
硬件与算力
训练环境 使用定制训练库,依托Meta研究超级集群和产线集群进行预训练,微调与评估基于第三方云计算平台。
碳足迹 预训练累计消耗330万A100-80GB GPU小时(TDP 350-400W),总排放539吨CO₂当量,已通过Meta碳中和计划全额抵消。
|
GPU小时 |
功耗(W) |
碳排放(tCO₂) |
7B |
184320 |
400 |
31.22 |
13B |
368640 |
400 |
62.44 |
70B |
1720320 |
400 |
291.42 |
总计 |
3311616 |
|
539.00 |
预训练碳排放数据。时间:单模型训练总GPU耗时;功耗:GPU设备峰值功耗(按能效调整)。Meta已全额抵消排放,模型开源可避免重复训练消耗。
训练数据
数据概览 预训练使用2万亿token公开数据,微调数据包含公开指令集及超百万人工标注样本,均不含Meta用户数据。
数据时效 预训练数据截止2022年9月,部分微调数据更新至2023年7月。
评估结果
下表展示Llama 1/2在标准学术基准的表现(基于内部评估库):
模型 |
规模 |
代码 |
常识推理 |
世界知识 |
阅读理解 |
数学 |
MMLU |
BBH |
AGI评估 |
Llama 1 |
7B |
14.1 |
60.8 |
46.2 |
58.5 |
6.95 |
35.1 |
30.3 |
23.9 |
Llama 1 |
13B |
18.9 |
66.1 |
52.6 |
62.3 |
10.9 |
46.9 |
37.0 |
33.9 |
Llama 1 |
33B |
26.0 |
70.0 |
58.4 |
67.6 |
21.4 |
57.8 |
39.8 |
41.7 |
Llama 1 |
65B |
30.7 |
70.7 |
60.5 |
68.6 |
30.8 |
63.4 |
43.5 |
47.6 |
Llama 2 |
7B |
16.8 |
63.9 |
48.9 |
61.3 |
14.6 |
45.3 |
32.6 |
29.3 |
Llama 2 |
13B |
24.5 |
66.9 |
55.4 |
65.8 |
28.7 |
54.8 |
39.4 |
39.1 |
Llama 2 |
70B |
37.5 |
71.9 |
63.6 |
69.4 |
35.2 |
68.9 |
51.2 |
54.2 |
综合学术基准表现。代码:HumanEval和MBPP的平均pass@1分数;常识推理:PIQA等7个基准平均(CommonsenseQA为7-shot,其余0-shot);世界知识:NaturalQuestions/TriviaQA的5-shot平均;数学:GSM8K(8-shot)和MATH(4-shot)的top1平均。
|
|
TruthfulQA |
Toxigen |
预训练模型 |
7B |
27.42 |
23.00 |
|
13B |
41.74 |
23.08 |
|
33B |
44.19 |
22.57 |
|
65B |
48.71 |
21.77 |
Llama 2 |
7B |
33.29 |
21.25 |
|
13B |
41.86 |
26.10 |
|
70B |
50.18 |
24.60 |
预训练模型安全基准。TruthfulQA:真实且信息丰富的生成比例(越高越好);ToxiGen:有害内容生成比例(越低越好)。
|
|
TruthfulQA |
Toxigen |
微调模型 |
7B |
57.04 |
0.00 |
|
13B |
62.18 |
0.00 |
|
70B |
64.14 |
0.01 |
微调模型安全评估(指标定义同上)。
伦理考量与限制
Llama 2作为新技术存在使用风险。当前测试仅限英语场景,无法覆盖所有可能性。与其他LLM类似,其输出可能存在不准确、偏见或不当内容。部署前开发者应进行应用场景特定的安全测试与调优。
请参阅《负责任使用指南》:https://ai.meta.com/llama/responsible-use-guide
问题反馈
请通过以下渠道报告问题:
模型索引