extra_gated_heading: 在Hugging Face上获取Llama 2访问权限
extra_gated_description: >
此表单用于在获得Meta授权后,启用Hugging Face平台上的Llama 2访问权限。提交前请务必访问Meta官网接受许可条款及使用政策。申请将在1-2个工作日内处理。
extra_gated_prompt: "注意:您提交的Hugging Face账户邮箱必须与Meta官网提供的邮箱完全一致,否则申请将无法通过。"
extra_gated_button_content: 提交
extra_gated_fields:
我同意向Meta共享姓名、邮箱及用户名,并确认已在Meta官网获得下载授权: checkbox
language:
- en
datasets:
- garage-bAInd/Open-Platypus
library_name: transformers
pipeline_tag: text-generation
inference: false
tags:
- facebook
- meta
- pytorch
- llama
- llama-2
speechless-llama2-orca-platypus-13b
本模型由AIDC-ai-business/Luban-13B与Open-Orca/OpenOrca-Platypus2-13B合并而成。
指标 |
数值 |
ARC |
62.54 |
HellaSwag |
82.76 |
MMLU |
59.23 |
TruthfulQA |
54.66 |
平均分 |
64.80 |
Llama 2
Llama 2是由Meta推出的预训练及精调生成文本模型系列,参数量从70亿到700亿不等。本仓库为130亿参数预训练模型的Hugging Face Transformers格式版本,其他模型索引详见文末。
模型详情
注意:使用本模型需遵守Meta许可协议。下载权重与分词器前,请先访问官网接受许可条款再提交访问申请。
Meta研发并开源了Llama 2系列大语言模型(LLMs),包含不同规模的预训练及对话优化版本。经优化的Llama-2-Chat模型在多数测试基准中超越开源对话模型,人工评估显示其安全性与帮助性可比肩ChatGPT等闭源模型。
研发机构 Meta
版本差异 提供7B/13B/70B三种参数规模及预训练/精调版本
输入类型 仅文本
输出类型 仅文本生成
架构特点 基于优化Transformer的自回归模型,精调版采用监督微调(SFT)和人类反馈强化学习(RLHF)对齐人类偏好
|
训练数据 |
参数量 |
上下文长度 |
GQA |
训练token数 |
学习率 |
Llama 2 |
公开网络数据混合 |
7B |
4k |
× |
2.0T |
3.0×10⁻⁴ |
Llama 2 |
公开网络数据混合 |
13B |
4k |
× |
2.0T |
3.0×10⁻⁴ |
Llama 2 |
公开网络数据混合 |
70B |
4k |
√ |
2.0T |
1.5×10⁻⁴ |
Llama 2模型家族。token数统计仅含预训练数据,所有模型均采用400万token的全局批次大小。70B大模型使用分组查询注意力(GQA)提升推理效率。
训练周期 2023年1月至7月
版本状态 静态离线训练模型,后续将根据社区反馈持续优化安全版本
许可协议 商业授权详见:官网链接
研究论文 "Llama-2: 开放基座与精调对话模型"
使用场景
适用领域 支持英语商业及研究用途,精调版适用于对话场景,预训练版可适配各类文本生成任务。
格式要求 对话版本需遵循特定格式规范,包括INST
/<<SYS>>
标签、BOS
/EOS
标记及换行处理(建议对输入执行strip()
避免多余空格),详见GitHub参考代码:对话补全实现。
限制用途 禁止用于违法场景、非英语环境或违反许可协议的行为。
硬件与算力
训练配置 使用定制训练库、Meta研究超算及生产集群进行预训练,精调与评估基于第三方云计算。
碳足迹 预训练累计消耗330万A100-80GB GPU小时(TDP 350-400W),总排放量539吨CO₂当量,已通过Meta碳中和计划全额抵消。
|
GPU小时 |
单卡功耗(W) |
碳排放量(吨CO₂) |
Llama 2 7B |
184320 |
400 |
31.22 |
Llama 2 13B |
368640 |
400 |
62.44 |
Llama 2 70B |
1720320 |
400 |
291.42 |
总计 |
3311616 |
|
539.00 |
预训练碳排放数据。Meta可持续发展计划已全额抵消排放,模型开源可避免重复训练消耗。
训练数据
数据构成 预训练使用2万亿token公开数据,精调数据含百万级人工标注样本(不含Meta用户数据)。
数据时效 预训练数据截至2022年9月,部分精调数据更新至2023年7月。
评估结果
综合学术基准表现
模型 |
规模 |
代码 |
常识推理 |
世界知识 |
阅读理解 |
数学 |
MMLU |
BBH |
AGI评估 |
Llama 2 70B |
37.5 |
71.9 |
63.6 |
69.4 |
35.2 |
68.9 |
51.2 |
54.2 |
|
代码:HumanEval与MBPP的平均pass@1分数;常识推理:PIQA等7个基准平均;世界知识:NaturalQuestions等5-shot平均;数学:GSM8K(8-shot)与MATH(4-shot)平均
安全基准评估
|
TruthfulQA(真实率↑) |
Toxigen(毒性率↓) |
Llama-2-Chat 70B |
64.14 |
0.01 |
伦理限制
Llama 2作为新兴技术存在应用风险。当前测试仅限英语环境且无法覆盖所有场景,模型可能产生不准确、偏见或不当输出。开发者需针对具体应用场景进行安全测试与调优。
责任使用指南详见:https://ai.meta.com/llama/responsible-use-guide/
问题反馈
模型索引
模型 |
Llama2原版 |
Llama2-hf版 |
Llama2对话版 |
Llama2对话-hf版 |
7B |
链接 |
链接 |
链接 |
链接 |