extra_gated_heading: 您需要与Meta共享联系信息以访问此模型
extra_gated_prompt: >-
LLAMA 2社区许可协议
"协议"指本文规定的关于Llama材料使用、复制、分发和修改的条款和条件。
"文档"指Meta在https://ai.meta.com/resources/models-and-libraries/llama-downloads/发布的与Llama 2配套的规范、手册和文档。
"被许可方"或"您"指达到适用法律、法规规定具有法律同意能力的年龄,并有权代表雇主或其他实体(如您代表该个人或实体签署本协议)签署本协议的个人或实体。
"Llama 2"指Meta在ai.meta.com/resources/models-and-libraries/llama-downloads/发布的基础大语言模型和软件算法,包括机器学习模型代码、训练模型权重、推理代码、训练代码、微调代码等组件。
"Llama材料"统指根据本协议提供的Meta专有Llama 2及其文档(或其任何部分)。
"Meta"或"我们"指Meta Platforms爱尔兰有限公司(如您位于欧洲经济区或瑞士,或作为实体主要营业地位于上述地区)和Meta Platforms公司(如您位于欧洲经济区或瑞士以外地区)。
点击下方"我接受"或使用、分发Llama材料的任何部分,即表示您同意受本协议约束。
- 许可权利与再分发
a. 权利授予。Meta授予您非排他性、全球性、不可转让且免版税的有限许可,允许您使用、复制、分发、创作衍生作品及修改Llama材料。
b. 再分发与使用
i. 如您向第三方分发Llama材料或其衍生作品,须向该第三方提供本协议副本。
ii. 如您从被许可方处获得作为集成终端产品组成部分的Llama材料或其衍生作品,则本协议第2条不适用。
iii. 您必须在分发的所有Llama材料副本中包含以下声明:"Llama 2采用LLAMA 2社区许可协议,版权所有(c) Meta Platforms公司。"
iv. 使用Llama材料须遵守适用法律法规(包括贸易合规法规)及《Llama材料可接受使用政策》(https://ai.meta.com/llama/use-policy)。
v. 不得使用Llama材料或其输出来改进其他大语言模型(Llama 2及其衍生作品除外)。
-
附加商业条款。如在Llama 2版本发布日,被许可方或其关联公司提供的产品或服务的月活跃用户数超过7亿,必须向Meta申请许可后方可行使本协议项下权利。
-
免责声明。除非法律另有要求,Llama材料及其输出按"原样"提供,不作任何明示或默示保证,包括但不限于适销性、特定用途适用性等。您须自行承担使用风险。
-
责任限制。Meta及其关联公司对因本协议导致的任何间接、特殊、附带或惩罚性损害不承担责任。
-
知识产权
a. 本协议不授予商标许可。未经另一方事先书面同意,不得使用对方商标。
b. 您对自行创作的Llama材料衍生作品享有所有权。
c. 如您对Meta提起知识产权诉讼,本协议授予的许可将自动终止。
-
期限与终止。本协议自您接受时生效,直至按条款终止。违约时Meta可终止协议。终止后您须停止使用并删除Llama材料。
-
适用法律。本协议受加利福尼亚州法律管辖,排除《联合国国际货物销售合同公约》适用。
Llama 2可接受使用政策
Meta致力于促进Llama 2的安全合理使用。使用Llama 2即表示您同意本政策(最新版本见ai.meta.com/llama/use-policy)。
禁止用途
-
违法或侵犯他人权利:
- 暴力恐怖活动
- 儿童剥削(包括制作、传播儿童性虐待材料)
- 人口贩卖、性暴力
- 向未成年人非法分发淫秽内容
- 性诱导
- 其他犯罪活动
- 骚扰、威胁、霸凌行为
- 就业、信贷、住房等领域的歧视
- 无证执业(医疗、法律等)
- 未经授权处理敏感个人信息
-
可能致人死亡或伤害的活动:
- 军事、核工业应用
- 非法武器开发
- 毒品及管制物质
- 关键基础设施操作
- 自残或伤害他人内容
-
欺骗行为:
- 生成虚假信息
- 诽谤内容
- 垃圾信息
- 冒充他人
- 谎称AI生成为人类创作
- 虚假网络互动(如刷评)
-
未向终端用户披露AI系统风险
违规举报渠道:
- 模型问题:github.com/facebookresearch/llama
- 风险内容:developers.facebook.com/llama_output_feedback
- 安全漏洞:facebook.com/whitehat/info
- 政策违规:LlamaUseReport@meta.com
extra_gated_fields:
名: text
姓: text
出生日期: date_picker
国家: country
所属机构: text
地理位置: ip_location
点击提交即表示我接受许可条款,并确认所提供信息将根据Meta隐私政策被收集、存储、处理及共享: checkbox
extra_gated_description: >-
您提供的信息将根据Meta隐私政策被收集、存储、处理及共享。
extra_gated_button_content: 提交
language:
- zh
pipeline_tag: text-generation
tags:
- facebook
- meta
- pytorch
- llama
- llama-2
license: llama2
Llama-2-7b-chat-hf GGUF模型集
模型格式选择指南
根据硬件性能和内存限制选择合适的模型格式。
BF16(脑浮点16位)——支持BF16加速时使用
- 专为快速计算设计的16位浮点格式,保持良好精度
- 动态范围接近FP32,内存占用更低
- 推荐支持BF16加速的硬件使用(请检查设备规格)
- 相比FP32,高性能推理与更低内存占用的理想选择
📌 适用场景:
✔ 硬件原生支持BF16(如新款GPU/TPU)
✔ 需要更高精度同时节省内存
✔ 计划将模型重量化为其他格式
📌 不适用场景:
❌ 硬件不支持BF16(可能回退至FP32导致速度下降)
❌ 需兼容缺乏BF16优化的旧设备
F16(浮点16位)——比BF16兼容性更广
- 16位高精度浮点,但数值范围小于BF16
- 支持大多数具有FP16加速的设备(包括多数GPU和部分CPU)
- 数值精度略低于BF16,但通常满足推理需求
📌 适用场景:
✔ 硬件支持FP16但不支持BF16
✔ 需要平衡速度、内存与精度
✔ 在GPU等优化FP16计算的设备上运行
📌 不适用场景:
❌ 设备缺乏原生FP16支持(可能运行速度低于预期)
❌ 存在内存限制
量化模型(Q4_K/Q6_K/Q8等)——CPU&低显存推理
量化在尽可能保持精度的前提下减小模型体积和内存占用。
- 低位模型(Q4_K) → 最小内存占用,精度较低
- 高位模型(Q6_K/Q8_0) → 更高精度,需更多内存
📌 适用场景:
✔ CPU推理且需要优化模型
✔ 设备显存不足无法加载全精度模型
✔ 希望减少内存占用同时保持合理精度
📌 不适用场景:
❌ 需要最高精度(全精度模型更优)
❌ 硬件有足够显存支持更高精度格式
极低位量化(IQ3_XS/IQ3_S/IQ3_M/Q4_K/Q4_0)
专为极致内存效率优化,适合低功耗设备或内存受限的大规模部署。
-
IQ3_XS:3位超低位量化,极致内存效率
- 用例:连Q4_K都过大的超低内存设备
- 代价:相比高位量化精度更低
-
IQ3_S:小分块实现最大内存效率
-
IQ3_M:中分块平衡精度与内存
-
Q4_K:4位分块量化优化精度
-
Q4_0:纯4位量化,ARM设备专用优化
模型格式选择速查表
模型格式 |
精度水平 |
内存占用 |
硬件要求 |
最佳场景 |
BF16 |
最高 |
高 |
支持BF16的GPU/CPU |
高速推理兼顾内存节省 |
F16 |
高 |
高 |
支持FP16的设备 |
GPU推理(无BF16时) |
Q4_K |
中低 |
低 |
CPU/低显存设备 |
内存严格受限环境 |
Q6_K |
中 |
中 |
大内存CPU |
量化模型中较高精度 |
Q8_0 |
高 |
中 |
充足显存设备 |
量化模型最高精度 |
IQ3_XS |
极低 |
极低 |
超低内存设备 |
极致内存效率优先 |
Q4_0 |
低 |
低 |
ARM设备 |
llama.cpp的ARM优化版 |
包含文件说明
Llama-2-7b-chat-hf-bf16.gguf
- 权重保留BF16格式
- 适合需要重量化为其他格式的场景
- 设备支持BF16加速时首选
Llama-2-7b-chat-hf-f16.gguf
- F16格式存储权重
- BF16不可用时的FP16替代方案
Llama-2-7b-chat-hf-bf16-q8_0.gguf
Llama-2-7b-chat-hf-f16-q8_0.gguf
Llama-2-7b-chat-hf-q4_k.gguf
- 输出&嵌入层量化至Q8_0
- 其他层量化至Q4_K
- CPU低内存推理优选
Llama-2-7b-chat-hf-q4_k_s.gguf
- 最小Q4_K变体,牺牲精度换取更低内存占用
- 极端内存限制场景专用
Llama-2-7b-chat-hf-q6_k.gguf
Llama-2-7b-chat-hf-q8_0.gguf
Llama-2-7b-chat-hf-iq3_xs.gguf
- IQ3_XS量化,极致内存优化
- 超低内存设备终极方案
Llama-2-7b-chat-hf-iq3_m.gguf
Llama-2-7b-chat-hf-q4_0.gguf
- 纯Q4_0量化,ARM设备特调
- 低内存环境首选
- 更高精度需求建议选用IQ4_NL
🚀 如果这些模型对您有帮助
请点击❤点赞。同时诚邀您测试我的网络监控助手 👉 [Network Monitor Assistant](https://readyforquantum.com