语言:
- 英文
任务标签: 文本生成
标签:
- meta
- llama-3
许可证: llama3
Llama-3 8B Gradient Instruct 262k
加入我们的定制智能体和长上下文(262k-1M+)等待列表:https://forms.gle/L6TDY7dozx8TuoUv7
Gradient整合您的数据,部署自主助手以推动企业关键业务。如需了解更多或合作定制模型,请发送邮件至contact@gradient.ai。
加入我们的Discord
该模型将LLama-3 8B的上下文长度从8k扩展至>160K,由Gradient开发,计算资源由Crusoe Energy赞助。研究表明,通过适当调整RoPE theta参数,SOTA(最先进)大语言模型能够以极少的训练量(<2亿token)学会处理长上下文。
更新(5月3日):我们进一步微调模型以增强其助手式对话能力,并更新了NIAH评估结果。

方法:
基础设施:
基于EasyContext Blockwise RingAttention库[3],在Crusoe Energy高性能L40S集群上高效扩展训练至262144 token上下文。
量化版本与GGUF
GGUF格式模型已发布于Crusoe的HuggingFace账户:crusoeai/Llama-3-8B-Instruct-262k-GGUF
Exl2量化版本
Exl2格式模型由Bullerwins维护:
8.0bpw exl2
6.0bpw exl2
5.0bpw exl2
5月3日改进权重的Exl2量化
8.0bpw exl2
6.0bpw exl2
5.0bpw exl2
数据:
训练数据通过扩展SlimPajama生成长上下文。基于UltraChat[4]的对话数据集进行微调,数据增强方案参考[2]。
渐进训练细节:
参数 |
65K |
262K |
初始模型 |
LLaMA-3-8B-Inst |
65K |
序列长度 |
2^16 |
2^18 |
RoPE theta |
1530万 |
2.071亿 |
批大小(token/步) |
209.7万 |
419.2万 |
训练步数 |
30 |
24 |
总token量 |
6300万 |
1.01亿 |
学习率 |
2.00E-05 |
2.00E-05 |
GPU数量 |
8 |
32 |
GPU类型 |
NVIDIA L40S |
NVIDIA L40S |
评估设置:
评估最大上下文长度=320200
评估最小上下文长度=100
评估上下文间隔=16000
评估深度间隔=0.2
评估样本数=2
评估随机数位数=8
干草堆测试:
评估生成token=925000
干草堆测试采用"haystack 3"方案,详见技术博客。
Gradient AI团队
官网:https://gradient.ai/
Gradient正加速AI产业变革。我们的AI铸造厂整合企业数据,部署驱动关键业务的自主助手。
联系我们
发送邮件至:contact@gradient.ai
引用
@misc{gradientlongcontextllama3,
title={Llama 3 Gradient: 长上下文模型系列},
author={Leonid Pekelis and Michael Feil and Forrest Moret and Mark Huang and Tiffany Peng},
year={2024},
url = {https://gradient.ai/blog/scaling-rotational-embeddings-for-long-context-language-models}
}
参考文献
[1] Peng, Bowen等. "Yarn: 大语言模型的高效上下文窗口扩展." arXiv预印本 arXiv:2309.00071 (2023).
[2] Liu, Hao等. "百万长度视频与语言的环注意力世界模型." arXiv预印本 arXiv:2402.08268 (2024).
[3] EasyContext库
[4] Ding Ning等. "通过扩展高质量教学对话增强聊天语言模型." arXiv预印本 arXiv:2305.14233 (2023).
基础模型
模型详情
Meta开发并发布了Meta Llama 3系列大语言模型(LLMs),包含80亿和700亿参数的预训练及指令微调生成文本模型。Llama 3指令微调模型针对对话场景优化,在行业基准测试中超越多数开源聊天模型。开发过程中我们特别注重优化帮助性与安全性。
开发者 Meta
变体 提供80亿和700亿参数的预训练及指令微调版本
输入 仅文本
输出 生成文本和代码
架构 Llama 3采用优化Transformer架构的自回归语言模型。微调版本使用监督微调(SFT)和人类反馈强化学习(RLHF)对齐人类偏好。
模型 |
训练数据 |
参数量 |
上下文长度 |
GQA |
训练token量 |
知识截止 |
Llama 3 8B |
公开网络数据混合 |
80亿 |
8k |
是 |
15T+ |
2023年3月 |
Llama 3 70B |
同上 |
700亿 |
8k |
是 |
15T+ |
2023年12月 |
发布日期 2024年4月18日
状态 静态模型,未来将根据社区反馈更新安全版本
许可 商业许可证见:https://llama.meta.com/llama3/license
反馈渠道 模型README提供指南,技术文档见llama-recipes
预期用途
适用场景 英语商业与研究用途,指令微调版适用于助手式对话
非适用场景 违反法律法规的使用,非英语场景需遵守许可协议
使用方法
Transformers管道
import transformers
import torch
model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
原始代码库
下载命令示例:
huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct --include "original/*" --local-dir Meta-Llama-3-8B-Instruct
硬件与碳足迹
训练硬件 使用Meta研究超级计算机和第三方云服务
碳排放 预训练消耗770万H100-80GB GPU小时(总排放2290吨CO2eq,已通过Meta碳中和计划抵消)
训练数据
总量 超15万亿token公开数据,微调数据含1000万人工标注样本
数据时效 8B/70B模型分别截止至2023年3月/12月
基准测试
(表格显示Llama 3在MMLU/AGIEval等基准上显著优于Llama 2)
责任与安全
安全措施 包括红队测试、对抗评估和安全缓解技术
拒绝机制 相比Llama 2显著减少错误拒绝
责任发布 遵循严格流程评估滥用和关键风险
伦理考量
核心价值 开放、包容、助人
局限性 当前测试仅限英语,建议应用前进行安全测试并集成Llama Guard等工具
引用格式
@article{llama3modelcard,
title={Llama 3模型卡},
author={AI@Meta},
year={2024},
url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}