extra_gated_heading: 访问此模型需向Meta共享联系信息
extra_gated_prompt: >-
LLAMA 2社区许可协议
"协议"指本文规定的关于Llama材料使用、复制、分发和修改的条款与条件。
"文档"指Meta在https://ai.meta.com/resources/models-and-libraries/llama-downloads/发布的Llama 2配套规格说明书、手册及文档。
"被许可方"或"您"指达到适用法律规定的法定同意年龄,且有权代表雇主或其他实体(若您代表该等主体签署本协议)签署本协议的个人或实体。
"Llama 2"指Meta在ai.meta.com/resources/models-and-libraries/llama-downloads/发布的基础大语言模型及软件算法,包括机器学习模型代码、训练模型权重、推理代码、训练代码、微调代码等组件。
"Llama材料"统指根据本协议提供的Meta专有Llama 2及其文档(或其任何部分)。
"Meta"或"我们"指Meta Platforms爱尔兰有限公司(若您位于欧洲经济区或瑞士)或Meta Platforms公司(若您位于其他地区)。
点击下方"我接受"或使用/分发Llama材料即表示您同意受本协议约束。
- 许可权利与再分发
a. 权利授予。Meta授予您非排他性、全球性、不可转让且免特许使用费的有限许可,允许使用、复制、分发、创作衍生作品及修改Llama材料。
b. 再分发要求
i. 向第三方分发Llama材料或其衍生作品时,须向该第三方提供本协议副本;
ii. 若通过被许可方获取集成终端产品中的Llama材料,则本协议第2条不适用;
iii. 所有分发的Llama材料副本中须保留版权声明:"Llama 2采用LLAMA 2社区许可协议,版权所有(c) Meta Platforms公司";
iv. 使用行为须符合适用法律法规及《Llama材料可接受使用政策》;
v. 不得使用Llama材料或其输出来改进其他大语言模型(Llama 2及其衍生作品除外)。
-
商业条款。若被许可方产品或服务的月活跃用户在Llama 2发布当月超过7亿,须向Meta申请商业许可。
-
免责声明。除非法律另有要求,Llama材料按"原样"提供,不附带任何明示或默示担保。
-
责任限制。Meta及其关联公司不对因本协议产生的任何间接、特殊、附带或惩罚性损害赔偿承担责任。
-
知识产权
a. 本协议不授予商标使用权;
b. 您对自行创作的衍生作品享有所有权;
c. 若您对Meta提起知识产权诉讼,本协议授予的许可将自动终止。
-
期限与终止。Meta有权在您违约时终止协议。终止后您应立即停止使用并删除Llama材料。
-
适用法律。本协议受加利福尼亚州法律管辖,排除《联合国国际货物销售合同公约》适用。
Llama 2可接受使用政策
禁止用途包括但不限于:
- 违法活动:暴力、恐怖主义、儿童剥削、人口贩卖、非法职业实践等;
- 高危活动:军事、武器开发、关键基础设施操作、自残等;
- 欺骗行为:生成虚假信息、垃圾内容、冒充他人等;
- 未披露AI系统风险。
违规举报渠道:
- 模型问题:github.com/facebookresearch/llama
- 风险内容:developers.facebook.com/llama_output_feedback
- 安全漏洞:facebook.com/whitehat/info
- 政策违规:LlamaUseReport@meta.com
extra_gated_fields:
名: text
姓: text
出生日期: date_picker
国家/地区: country
所属机构: text
地理位置: ip_location
点击提交即表示我接受许可条款,并同意根据Meta隐私政策处理所提供信息: checkbox
extra_gated_description: >-
所提供信息将依据Meta隐私政策进行收集、存储、处理及共享。
extra_gated_button_content: 提交
language:
- zh
pipeline_tag: text-generation
tags:
- facebook
- meta
- pytorch
- llama
- llama-2
license: llama2
Llama 2
Llama 2是由70亿至700亿参数组成的预训练与微调生成文本模型系列。本仓库存储转换为Hugging Face格式的700亿参数预训练模型,其他模型索引见文末。
模型详情
注意:使用本模型需遵守Meta许可协议。下载权重与分词器前,请先访问官网接受许可条款。
Meta开发并开源了Llama 2系列大语言模型,包含70亿至700亿参数的预训练及对话优化版本。经微调的Llama-2-Chat模型在多数基准测试中超越开源对话模型,人类评估显示其安全性与实用性媲美ChatGPT等闭源模型。
开发机构 Meta
版本规格 提供7B/13B/70B三种参数规模及预训练/微调两种变体
输入形式 仅接受文本输入
输出形式 仅生成文本内容
模型架构 基于优化Transformer架构的自回归语言模型,微调版本采用监督微调(SFT)和人类反馈强化学习(RLHF)技术
|
训练数据 |
参数量 |
上下文长度 |
GQA |
训练token数 |
学习率 |
Llama 2 |
公开网络数据混合 |
7B |
4k |
× |
2.0T |
3.0×10⁻⁴ |
Llama 2 |
公开网络数据混合 |
13B |
4k |
× |
2.0T |
3.0×10⁻⁴ |
Llama 2 |
公开网络数据混合 |
70B |
4k |
√ |
2.0T |
1.5×10⁻⁴ |
Llama 2模型系列。token数统计仅含预训练数据,所有模型均采用400万token的全局批次大小。70B模型使用分组查询注意力(GQA)提升推理扩展性。
训练时段 2023年1月至7月
版本状态 静态离线训练模型,后续将根据社区反馈持续优化安全性
许可协议 商业许可详见:https://ai.meta.com/resources/models-and-libraries/llama-downloads/
研究论文 "Llama-2: 开放基础与微调对话模型"
使用范围
适用场景 Llama 2支持英文商业与研究用途。微调版适用于对话场景,预训练版可适配各类文本生成任务。
对话版本需遵循特定格式规范,包括INST
/<<SYS>>
标签、BOS
/EOS
标记及换行处理(建议对输入执行strip()
避免多余空格),详见GitHub参考代码:chat_completion
。
禁用场景 违反法律法规的使用;非英语场景;违反《Llama 2可接受使用政策》及许可协议的行为。
硬件与算力
训练环境 使用定制训练库,依托Meta研究超级集群及生产集群完成预训练,微调与评估通过第三方云计算实现。
碳足迹 预训练累计消耗330万A100-80GB GPU小时(TDP 350-400W),总排放量539吨CO₂当量,已通过Meta碳中和计划全额抵消。
|
GPU小时 |
功耗(W) |
碳排放(tCO₂) |
7B模型 |
184320 |
400 |
31.22 |
13B模型 |
368640 |
400 |
62.44 |
70B模型 |
1720320 |
400 |
291.42 |
总计 |
3311616 |
|
539.00 |
预训练碳排放数据 时间:各模型训练总GPU时;功耗:按GPU设备峰值功耗与使用效率调整。Meta已全额抵消排放,且模型开源可避免重复训练成本。
训练数据
数据概览 预训练使用2万亿token公开数据,微调数据包含百万级人工标注样本。所有数据均不含Meta用户数据。
数据时效 预训练数据截至2022年9月,部分微调数据更新至2023年7月。
评估结果
模型 |
规模 |
代码 |
常识推理 |
世界知识 |
阅读理解 |
数学 |
MMLU |
BBH |
AGI评估 |
Llama 1 |
7B |
14.1 |
60.8 |
46.2 |
58.5 |
6.95 |
35.1 |
30.3 |
23.9 |
Llama 2 |
7B |
16.8 |
63.9 |
48.9 |
61.3 |
14.6 |
45.3 |
32.6 |
29.3 |
Llama 2 |
70B |
37.5 |
71.9 |
63.6 |
69.4 |
35.2 |
68.9 |
51.2 |
54.2 |
学术基准综合表现 *代码:*HumanEval与MBPP平均pass@1分数 *常识推理:*PIQA/SIQA等7项基准平均 *世界知识:*NaturalQuestions/TriviaQA 5-shot平均 *数学:*GSM8K(8-shot)与MATH(4-shot)平均
|
|
真实问答 |
毒性生成 |
Llama-2-Chat |
7B |
57.04 |
0.00 |
Llama-2-Chat |
70B |
64.14 |
0.01 |
安全基准评估 数值越高代表真实性越好(真实问答),数值越低代表毒性越小(毒性生成)。
伦理限制
Llama 2作为新兴技术存在使用风险。当前测试仅限英语场景且无法覆盖所有情况。与其他大语言模型类似,Llama 2可能产生不准确、偏见或不当输出。部署前开发者应进行针对性安全测试与调优。
详见《负责任使用指南》:https://ai.meta.com/llama/responsible-use-guide/
问题反馈
模型索引