Llama 2
Llama 2是一系列预训练及微调的生成式文本模型,参数量从70亿到700亿不等。本仓库为70亿参数对话优化版模型,已转换为Hugging Face Transformers格式。其他模型链接详见底部索引。
模型详情
注意:使用本模型需遵守Meta许可协议。下载模型权重和分词器前,请访问官网接受许可条款后再申请访问权限。
Meta开发并开源了Llama 2系列大语言模型(LLMs),包含70亿至700亿参数的预训练及微调版本。我们的微调版本Llama-2-Chat针对对话场景优化,在多数测试基准上超越开源对话模型,在人工评估的安全性和实用性方面与ChatGPT、PaLM等主流闭源模型表现相当。
开发团队 Meta
版本差异 Llama 2提供70亿、130亿和700亿三种参数规模,包含预训练和微调版本。
输入 仅接受文本输入
输出 仅生成文本内容
架构 Llama 2采用优化后的自回归Transformer架构。微调版本通过监督微调(SFT)和人类反馈强化学习(RLHF)对齐人类偏好。
|
训练数据 |
参数量 |
上下文长度 |
GQA |
训练token数 |
学习率 |
Llama 2 |
全新公开网络数据混合 |
7B |
4k |
✗ |
2.0T |
3.0 x 10-4 |
Llama 2 |
全新公开网络数据混合 |
13B |
4k |
✗ |
2.0T |
3.0 x 10-4 |
Llama 2 |
全新公开网络数据混合 |
70B |
4k |
✔ |
2.0T |
1.5 x 10-4 |
Llama 2模型家族 token计数仅含预训练数据。所有模型均以400万token为全局批次大小训练。700亿参数模型采用分组查询注意力(GQA)提升推理效率。
训练时间 2023年1月至7月
状态 本模型基于静态离线数据集训练。后续将根据社区反馈持续优化安全性。
许可证 商业使用条款详见:官网链接
研究论文 "Llama-2: 开源基础与微调对话模型"
使用场景
适用场景 Llama 2支持英文商业及研究用途。微调版适用于智能对话,预训练版可适配多种文本生成任务。
对话版本需遵循特定格式规范,包括INST
、<<SYS>>
标签,BOS
和EOS
标记,以及换行控制(建议对输入执行strip()
避免多余空格)。详见GitHub参考代码:对话补全实现。
禁用场景 违反法律法规的使用(含贸易合规);非英语场景;违反Llama 2《可接受使用政策》及许可协议的行为。
硬件与软件
训练环境 使用定制训练库、Meta研究超级集群及生产集群进行预训练。微调、标注和评估依托第三方云计算平台。
碳足迹 预训练累计消耗330万A100-80GB GPU小时(功耗350-400W),总排放量539吨CO2当量,已通过Meta碳中和计划全额抵消。
|
GPU小时 |
单卡功耗(W) |
碳排放(吨) |
7B模型 |
184320 |
400 |
31.22 |
13B模型 |
368640 |
400 |
62.44 |
70B模型 |
1720320 |
400 |
291.42 |
总计 |
3311616 |
|
539.00 |
预训练碳排放数据 时间:各模型训练总GPU耗时;功耗:按电源使用效率调整的GPU峰值功耗。Meta已全额抵消排放,且模型开源可避免重复训练。
训练数据
概述 预训练使用2万亿token公开数据。微调数据包含公开指令集及超100万人工标注样本,均不含Meta用户数据。
数据时效 预训练数据截止2022年9月,部分微调数据更新至2023年7月。
评估结果
模型 |
规模 |
代码 |
常识推理 |
世界知识 |
阅读理解 |
数学 |
MMLU |
BBH |
AGI评估 |
Llama 1 |
7B |
14.1 |
60.8 |
46.2 |
58.5 |
6.95 |
35.1 |
30.3 |
23.9 |
Llama 2 |
7B |
16.8 |
63.9 |
48.9 |
61.3 |
14.6 |
45.3 |
32.6 |
29.3 |
70B模型 |
37.5 |
71.9 |
63.6 |
69.4 |
35.2 |
68.9 |
51.2 |
54.2 |
|
学术基准综合表现 代码: HumanEval和MBPP的平均pass@1分数 常识推理: PIQA等7项基准平均 世界知识: NaturalQuestions等5-shot平均 数学: GSM8K(8-shot)与MATH(4-shot)平均
|
|
TruthfulQA |
Toxigen |
Llama-2-Chat |
70B |
64.14 |
0.01 |
微调模型安全评估 TruthfulQA数值越高越好,Toxigen数值越低越好。
伦理限制
Llama 2作为新兴技术存在使用风险。当前测试仅限英语且未覆盖全部场景。与其他LLM类似,其输出可能存在不准确、偏见或不妥内容。部署前开发者需针对具体应用进行安全测试与调优。
责任使用指南详见:https://ai.meta.com/llama/responsible-use-guide
问题反馈
模型索引