extra_gated_heading: 访问此模型需向Meta共享联系信息
extra_gated_prompt: >-
LLAMA 2社区许可协议
"协议"指本文规定的Llama材料使用、复制、分发和修改的条款与条件。
"文档"指Meta在https://ai.meta.com/resources/models-and-libraries/llama-downloads/发布的Llama 2配套规范、手册及文档。
"被许可方"或"您"指达到适用法律规定的法定同意年龄,且有权代表雇主或其他实体(若您代表该等主体签署本协议)接受本协议的个人或实体。
"Llama 2"指Meta在ai.meta.com/resources/models-and-libraries/llama-downloads/发布的基础大语言模型及软件算法,包括机器学习模型代码、训练模型权重、推理代码、训练代码、微调代码等组件。
"Llama材料"统指根据本协议提供的Meta专有Llama 2及其文档(或其任何部分)。
"Meta"或"我们"指Meta Platforms爱尔兰有限公司(若您位于欧洲经济区或瑞士)或Meta Platforms公司(若您位于其他地区)。
点击下方"接受"或使用/分发Llama材料即表示您同意受本协议约束。
- 许可权利与再分发
a. 权利授予:Meta授予您非排他性、全球性、不可转让、免版税的有限许可,允许使用、复制、分发、创作衍生作品及修改Llama材料。
b. 再分发要求:
i. 向第三方分发时须附本协议副本;
ii. 若通过集成产品获取Llama材料,则协议第2条不适用;
iii. 所有分发副本须包含版权声明:"Llama 2采用LLAMA 2社区许可,版权所有© Meta Platforms公司";
iv. 使用需遵守法律及《可接受使用政策》;
v. 不得用于改进其他大语言模型(Llama 2衍生作品除外)。
-
商业条款:若月活用户超7亿,需额外申请Meta商业许可。
-
免责声明:除非法律要求,Llama材料按"原样"提供,不承担任何明示或默示担保。
-
责任限制:Meta不承担因协议引起的任何间接、特殊、附带或惩罚性损害赔偿。
-
知识产权:
a. 不授予商标使用权;
b. 您对自创衍生作品享有所有权;
c. 提起侵权诉讼将导致许可自动终止。
-
协议期限:接受即生效,违约时Meta可终止。终止后须删除材料。第3、4、7条持续有效。
-
法律适用:受加州法律管辖,排除《联合国国际货物销售合同公约》适用。
Llama 2可接受使用政策
禁止用途包括:
- 违法或侵害他人权利行为:
- 暴力恐怖活动、儿童剥削、人口贩卖、向未成年人分发非法信息等;
- 骚扰歧视、无照专业实践、侵犯隐私权等;
- 生成恶意软件、病毒等破坏性内容;
- 可能造成人身伤害的活动:
- 欺骗行为:
- 未披露AI系统风险。
违规举报渠道:
- 模型问题:github.com/facebookresearch/llama
- 风险输出:developers.facebook.com/llama_output_feedback
- 安全漏洞:facebook.com/whitehat/info
- 政策违规:LlamaUseReport@meta.com
extra_gated_fields:
名: text
姓: text
出生日期: date_picker
国家: country
所属机构: text
地理位置: ip_location
勾选即表示我接受许可条款,并同意根据Meta隐私政策处理所提供信息: checkbox
extra_gated_description: >-
所提交信息将依据Meta隐私政策进行收集、存储和处理。
extra_gated_button_content: 提交
language:
- en
pipeline_tag: text-generation
tags:
- facebook
- meta
- pytorch
- llama
- llama-2
license: llama2
Llama 2
Llama 2是由70亿至700亿参数规模的预训练及微调生成文本模型组成的系列。本仓库存储转换为Hugging Face格式的70亿参数预训练模型,其他模型索引见文末。
模型详情
注意:使用本模型需遵守Meta许可协议。下载权重与分词器前,请先访问官网接受许可条款。
Meta开发并开源了Llama 2大语言模型系列,包含多种参数规模的预训练和对话优化版本。经微调的Llama-2-Chat模型在多数基准测试中超越开源对话模型,人类评估显示其安全性和帮助性与ChatGPT等闭源模型相当。
开发团队 Meta
版本差异 提供70亿、130亿和700亿三种参数规模,含预训练和微调版本
输入输出 仅处理文本数据
架构 基于优化Transformer的自回归语言模型,微调版本采用SFT和RLHF技术对齐人类偏好
|
训练数据 |
参数量 |
上下文长度 |
GQA |
训练token数 |
学习率 |
Llama 2 |
公开网络数据混合 |
7B |
4k |
× |
2.0T |
3.0×10⁻⁴ |
Llama 2 |
公开网络数据混合 |
13B |
4k |
× |
2.0T |
3.0×10⁻⁴ |
Llama 2 |
公开网络数据混合 |
70B |
4k |
√ |
2.0T |
1.5×10⁻⁴ |
注:700亿参数版本采用分组查询注意力(GQA)提升推理效率,所有模型全局批大小均为400万token
训练周期 2023年1月至7月
状态 静态模型,后续将根据社区反馈改进安全性
许可 商业许可详见官网
论文 "Llama-2: 开放基础与微调对话模型"
使用范围
适用场景
- 商业与研究领域的英文应用
- 微调版适用于对话场景(需遵循特定格式要求)
- 预训练版可适配各类文本生成任务
限制用途
- 违反法律法规的行为
- 非英语场景
- 违反《可接受使用政策》的行为
硬件与碳足迹
训练配置
- 使用Meta研究超级计算机与第三方云算力
- 预训练累计消耗330万A100-80GB GPU小时(功耗400W)
- 总碳排放539吨CO₂当量,已通过Meta碳中和计划全额抵消
模型 |
GPU小时 |
单卡功耗(W) |
碳排放(吨) |
7B |
184320 |
400 |
31.22 |
13B |
368640 |
400 |
62.44 |
70B |
1720320 |
400 |
291.42 |
总计 |
3311616 |
|
539.00 |
训练数据
- 预训练数据:2万亿token公开数据(截止2022年9月)
- 微调数据:超100万人工标注样本(含2023年7月新数据)
- 不含Meta用户数据
基准测试
综合学术基准表现(百分比)
模型 |
参数量 |
代码 |
常识推理 |
世界知识 |
阅读理解 |
数学 |
MMLU |
BBH |
AGI评估 |
Llama 1 |
7B |
14.1 |
60.8 |
46.2 |
58.5 |
6.95 |
35.1 |
30.3 |
23.9 |
Llama 2 |
7B |
16.8 |
63.9 |
48.9 |
61.3 |
14.6 |
45.3 |
32.6 |
29.3 |
Llama 2 |
70B |
37.5 |
71.9 |
63.6 |
69.4 |
35.2 |
68.9 |
51.2 |
54.2 |
代码:HumanEval和MBPP平均分;数学:GSM8K(8-shot)和MATH(4-shot)平均分
安全性评估
- 预训练模型:ToxiGen毒性内容生成率21.25%(7B最优)
- 微调模型:Llama-2-Chat 70B在TruthfulQA达到64.14%真实率
伦理限制
Llama 2作为新技术存在使用风险:
- 当前测试仅限英语场景
- 可能产生不准确、偏见或不当输出
- 部署前需进行应用场景专项安全测试
详见《负责任使用指南》
问题反馈
模型索引