language:
- en
pipeline_tag: text-generation
tags:
- meta
- llama-3
license: llama3

Llama-3 8B梯度指令版1048k
加入我们的定制智能体和长上下文(262k-1M+)等待列表:https://forms.gle/L6TDY7dozx8TuoUv7
Gradient通过整合您的数据来部署自主助手,驱动企业关键业务运营。如需构建定制AI模型或智能体,请发送邮件至contact@gradient.ai。更多信息请参阅我们的定制大语言模型与AI系统端到端开发服务
加入Discord社区
本模型由Gradient开发,由Crusoe Energy提供算力支持,将Llama-3 8B的上下文窗口从8k扩展至>1040k。研究表明,通过合理调整RoPE theta参数,顶尖大语言模型只需极少量训练即可掌握长上下文处理能力。当前阶段训练消耗8.3亿token,全阶段总计14亿token,不足Llama-3原始预训练数据的0.01%。
更新(5月3日):我们进一步微调模型以增强其对话助手能力
最新NIAH评估结果:

RULER基准测试:
- 在检索与问答任务中,本模型仅次于GPT-4和Yi模型
- 是进入综合排名前7的最小参数量模型

技术方案:
基础设施:
基于EasyContext Blockwise RingAttention库[3],在Crusoe Energy高性能L40S集群上实现最高1048k token的高效可扩展训练。
我们创新性地在Ring Attention基础上实施分层并行策略,通过定制网络拓扑有效应对多设备间KV块传输的网络瓶颈,使模型训练速度提升33倍(对比下表524k/1048k与65k/262k的训练效率)。
数据:
训练数据通过扩展SlimPajama生成长上下文。基于UltraChat[4]的对话数据集进行微调,数据增强方案参考[2]。
渐进式训练详情:
|
65K |
262K |
524k |
1048k |
初始化来源 |
LLaMA-3 8B |
65K |
262K |
524k |
序列长度 2^N |
16 |
18 |
19 |
20 |
RoPE theta |
1530万 |
2.071亿 |
10.6亿 |
28亿 |
批大小 |
1 |
1 |
16 |
8 |
梯度累积步数 |
32 |
16 |
1 |
1 |
训练步数 |
30 |
24 |
50 |
50 |
总token量 |
6291万 |
1亿 |
4.19亿 |
8.39亿 |
学习率 |
2.00E-05 |
2.00E-05 |
2.00E-05 |
2.00E-05 |
GPU数量 |
8 |
32 |
512 |
512 |
GPU类型 |
NVIDIA L40S |
NVIDIA L40S |
NVIDIA L40S |
NVIDIA L40S |
训练时长(分钟) |
202 |
555 |
61 |
87 |
评估:

评估最大上下文长度=1040200
评估最小上下文长度=100
评估上下文间隔=86675
评估深度间隔=0.2
评估随机数位数=8
干草堆1:
评估生成token数=25
干草堆2:
评估上下文间隔=173350
评估生成token数=150000
干草堆3:
评估生成token数=925000
Haystack 1和3未展示的测试项准确率均为100%。完整评估方法详见技术博客。
量化版本:
Gradient AI团队
https://gradient.ai/
Gradient正加速AI技术跨行业变革。我们的AI铸造厂通过整合企业数据,部署驱动关键业务的自主助手。
联系我们
发送邮件至contact@gradient.ai
引用:
@misc{gradientlongcontextllama3,
title={Llama 3梯度系列:长上下文模型},
author={Leonid Pekelis and Michael Feil and Forrest Moret and Mark Huang and Tiffany Peng},
year={2024},
url = {https://gradient.ai/blog/scaling-rotational-embeddings-for-long-context-language-models},
doi = { 10.57967/hf/3372 },
}
参考文献
[1] Peng, Bowen等. "Yarn: 大语言模型高效上下文窗口扩展技术." arXiv预印本 arXiv:2309.00071 (2023).
[2] Liu, Hao等. "基于RingAttention的百万长度视频与语言世界模型." arXiv预印本 arXiv:2402.08268 (2024).
[3] https://github.com/jzhang38/EasyContext
[4] Ding Ning等. "通过扩展高质量教学对话增强聊天语言模型." arXiv预印本 arXiv:2305.14233, 2023.
基础模型
模型详情
Meta开发并发布了Llama 3系列大语言模型,包含80亿和700亿参数规模的预训练及指令调优版本。Llama 3指令调优模型专为对话场景优化,在行业基准测试中超越多数开源聊天模型。开发过程中,我们特别注重优化模型的实用性与安全性。
开发团队 Meta
版本 提供80亿和700亿参数的预训练及指令调优变体
输入 仅接受文本输入
输出 仅生成文本和代码
架构 Llama 3采用优化的自回归Transformer架构。调优版本通过监督微调(SFT)和人类反馈强化学习(RLHF)对齐人类偏好。
训练数据 |
参数量 |
上下文长度 |
GQA |
训练token数 |
知识截止 |
公开网络数据混合 |
8B |
8k |
是 |
15T+ |
2023年3月 |
70B |
8k |
是 |
2023年12月 |
Llama 3模型家族。token计数仅含预训练数据。8B/70B版本均采用分组查询注意力(GQA)提升推理效率。
发布日期 2024年4月18日
状态 基于离线数据的静态模型。后续将根据社区反馈持续优化安全性。
许可 商业许可详见:https://llama.meta.com/llama3/license
技术问题请参阅模型README,应用开发指南请访问llama-recipes。
使用场景
适用场景 Llama 3适用于英语商业与研究场景。指令调优版适合对话助手,预训练版可适配各类文本生成任务。
限制场景 任何违反法律法规的使用;违反使用政策的行为;非英语场景开发需遵守许可协议。
使用方式
本仓库包含transformers版和原生llama3
代码库两个版本。
transformers使用示例
管道方式
import transformers
import torch
model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{"role": "system", "content": "你是一个用海盗口吻回答问题的聊天机器人!"},
{"role": "user", "content": "你是谁?"},
]
AutoModel方式
from transformers import AutoTokenizer, AutoModelForCausalLM
原生llama3
使用
请遵循仓库指南。下载原始检查点示例:
huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct --include "original/*" --local-dir Meta-Llama-3-8B-Instruct
硬件与碳足迹
训练设施 使用定制训练库、Meta研究超算及商用云集群。预训练累计消耗770万H100-80GB GPU小时(TDP 700W),总排放2290吨CO2当量,已通过Meta碳中和计划全额抵消。
GPU小时 |
功耗(W) |
碳排放(tCO2eq) |
Llama 3 8B: 130万 |
700 |
390 |
Llama 3 70B: 640万 |
700 |
1900 |
训练数据
概述 预训练使用超过15万亿token的公开数据。微调数据包含公开指令集及超1000万人工标注样本,不含Meta用户数据。
数据时效 8B/70B模型的预训练数据分别截止于2023年3月/12月。
基准测试
(中英文指标名称对照表与测试结果保持原格式,此处从略)
责任与安全
我们相信开放生态能催生更安全的产品、更快的创新和更大的市场。Llama 3的开发遵循负责任AI原则,采取多重措施降低滥用风险。
安全工具 提供Meta Llama Guard 2和[Code Shield](https://llama.meta.com/purple