extra_gated_heading: 在Hugging Face上获取Llama 2访问权限
extra_gated_description: >
此表单用于在您获得Meta授权后,启用Hugging Face平台上的Llama 2访问权限。请先访问Meta官网接受许可条款和可接受使用政策,再提交本申请。处理周期为1-2个工作日。
extra_gated_prompt: "您填写的Hugging Face账户邮箱必须与Meta官网提供的邮箱一致,否则申请将无法通过。"
extra_gated_button_content: 提交
extra_gated_fields:
我同意向Meta共享姓名、邮箱和用户名,并确认已在Meta官网获得下载权限: 复选框
language:
- en
pipeline_tag: text-generation
inference: false
tags:
- facebook
- meta
- pytorch
- llama
- llama-2
Llama 2
Llama 2是由70亿至700亿参数规模的预训练与微调生成文本模型组成的系列。本仓库存储了针对对话场景优化的700亿参数微调模型,并已转换为Hugging Face Transformers格式。其他模型链接详见文末索引。
模型详情
注意:使用本模型需遵守Meta许可协议。下载模型权重和分词器前,请先访问官网接受许可协议,再提交访问申请。
Meta开发并开源了Llama 2系列大语言模型(LLMs),包含70亿至700亿参数的预训练及微调生成文本模型。经微调的Llama-2-Chat模型专为对话场景优化,在多数测试基准中超越开源对话模型,人工评估显示其有用性和安全性堪比ChatGPT、PaLM等闭源模型。
开发团队 Meta
版本规格 提供7B/13B/70B三种参数规模,含预训练和微调版本。
输入 仅接受文本输入
输出 仅生成文本内容
架构 Llama 2采用优化Transformer架构的自回归语言模型。微调版本通过监督微调(SFT)和人类反馈强化学习(RLHF)对齐人类偏好。
|
训练数据 |
参数量 |
上下文长度 |
GQA |
训练token数 |
学习率 |
Llama 2 |
全新公开网络数据混合 |
7B |
4k |
✖ |
2.0T |
3.0×10⁻⁴ |
Llama 2 |
全新公开网络数据混合 |
13B |
4k |
✖ |
2.0T |
3.0×10⁻⁴ |
Llama 2 |
全新公开网络数据混合 |
70B |
4k |
✔ |
2.0T |
1.5×10⁻⁴ |
Llama 2模型家族 token数仅统计预训练数据。所有模型均以400万token为全局批次大小训练。70B大模型采用分组查询注意力(GQA)提升推理扩展性。
训练时段 2023年1月至7月
状态 基于离线数据的静态模型。后续将根据社区反馈持续优化安全性。
许可协议 商业许可详见:官网链接
研究论文 "Llama-2: 开放基础与微调对话模型"
使用范围
适用场景 支持英语商业与研究用途。微调版适用于对话场景,预训练版可适配各类文本生成任务。
禁用场景 违反法律法规的使用;非英语场景;违反Llama 2使用政策及许可协议的行为。
硬件与软件
训练环境 使用定制训练库、Meta研究超级集群及生产集群进行预训练,微调与评估依托第三方云计算平台。
碳足迹 预训练累计消耗330万A100-80GB GPU小时(功耗350-400W),总排放539吨CO₂当量,已通过Meta碳中和计划全额抵消。
|
GPU小时 |
单卡功耗(W) |
碳排放(tCO₂) |
Llama 2 7B |
184320 |
400 |
31.22 |
Llama 2 13B |
368640 |
400 |
62.44 |
Llama 2 70B |
1720320 |
400 |
291.42 |
总计 |
3311616 |
|
539.00 |
预训练碳排放 时间:各模型训练总GPU耗时;功耗:按能效调整的GPU峰值功耗。Meta已全额抵消排放,模型开源可避免他人重复训练。
训练数据
概述 预训练使用2万亿token公开数据,微调数据含公开指令集及超百万人工标注样本,均不含Meta用户数据。
数据时效 预训练数据截止2022年9月,部分微调数据更新至2023年7月。
评估结果
学术基准表现
模型 |
规模 |
代码 |
常识推理 |
世界知识 |
阅读理解 |
数学 |
MMLU |
BBH |
AGI评估 |
Llama 1 |
7B |
14.1 |
60.8 |
46.2 |
58.5 |
6.95 |
35.1 |
30.3 |
23.9 |
Llama 2 |
7B |
16.8 |
63.9 |
48.9 |
61.3 |
14.6 |
45.3 |
32.6 |
29.3 |
Llama 2 |
70B |
37.5 |
71.9 |
63.6 |
69.4 |
35.2 |
68.9 |
51.2 |
54.2 |
代码:HumanEval和MBPP的平均pass@1;常识推理:7个基准平均;世界知识:5-shot平均;数学:GSM8K(8-shot)和MATH(4-shot)平均
安全基准
|
TruthfulQA |
Toxigen |
Llama 2 7B |
33.29 |
21.25 |
Llama-2-Chat 70B |
64.14 |
0.01 |
TruthfulQA数值越高越好,Toxigen数值越低越好
伦理考量与限制
Llama 2作为新兴技术存在使用风险。当前测试仅限英语场景,无法覆盖所有情况。与其他LLM类似,其输出可能存在不准确、偏见或不当内容。开发者需针对具体应用场景进行安全测试与调优。
责任使用指南详见:https://ai.meta.com/llama/responsible-use-guide/
问题反馈
模型索引