Llama 3-8B量化版开源模型 - 优化内存提速推理，适用于资源有限环境

首页

Llama 3 8b Quantized

由 SweatyCrayfish 开发

Llama 3模型的4位量化版本，优化内存使用并加快推理速度，适用于计算资源有限的环境。

大型语言模型

Transformers

英语开源协议:其他 #4位量化 #内存高效 #快速推理

下载量 2,037

发布时间 : 4/20/2024

模型简介

基于Llama 3的8B参数模型进行4位量化处理，显著降低内存占用，提升推理效率，适合在资源受限的设备上部署。

模型特点

内存高效

通过4位量化技术显著减少内存使用，允许在内存有限的设备上部署。

推理加速

根据硬件处理低比特计算的能力，可加快推理速度。

易用性

提供简单的加载和使用示例，便于快速集成到现有项目中。

模型能力

文本生成

语言理解

上下文推理

使用案例

资源受限环境部署

边缘设备部署

在内存有限的边缘设备上运行大型语言模型。

降低硬件门槛，使更多设备能够运行先进的语言模型。

高效推理应用

实时聊天应用

用于需要快速响应的对话系统。

提升响应速度，改善用户体验。

🚀 4位量化Llama 3模型

本项目提供了Llama 3模型的4位量化版本，该版本经过优化，可减少内存使用并加快推理速度，适用于计算资源有限的环境。

🚀 快速开始

要高效使用此模型，请按照以下步骤操作：

加载量化模型

使用特定参数加载模型，以确保其使用4位精度：

from transformers import AutoModelForCausalLM

model_4bit = AutoModelForCausalLM.from_pretrained("SweatyCrayfish/llama-3-8b-quantized", device_map="auto", load_in_4bit=True)

调整组件精度

调整其他组件的精度，这些组件默认会转换为torch.float16：

import torch
from transformers import AutoModelForCausalLM

model_4bit = AutoModelForCausalLM.from_pretrained("SweatyCrayfish/llama-3-8b-quantized", load_in_4bit=True, torch_dtype=torch.float32)
print(model_4bit.model.decoder.layers[-1].final_layer_norm.weight.dtype)

✨ 主要特性

内存高效：显著减少内存使用，允许在内存有限的设备上部署。
推理速度快：根据硬件处理低比特计算的能力，加快推理时间。

📚 详细文档

模型详情

属性	详情
模型类型	基于Transformer的语言模型
量化方式	4位精度

📄 许可证

META LLAMA 3社区许可协议

Meta Llama 3版本发布日期：2024年4月18日

“协议”指本协议中规定的使用、复制、分发和修改Llama材料的条款和条件。

“文档”指Meta在https://llama.meta.com/get-started/ 分发的Meta Llama 3随附的规范、手册和文档。

“被许可方”或“您”指您，或您的雇主，或任何其他人或实体（如果您代表该人或实体签订本协议），且您已达到适用法律、规则或法规要求的提供法律同意的年龄，并且如果您代表他们签订本协议，您有权约束您的雇主或该其他人或实体。

“Meta Llama 3”指基础大语言模型以及软件和算法，包括机器学习模型代码、训练好的模型权重、推理启用代码、训练启用代码、微调启用代码以及Meta在https://llama.meta.com/llama-downloads 分发的上述内容的其他元素。

“Llama材料”指根据本协议提供的Meta专有Meta Llama 3和文档（及其任何部分）的统称。

“Meta”或“我们”指Meta Platforms Ireland Limited（如果您位于欧洲经济区（EEA）或瑞士，或者如果您是一个实体，您的主要营业地位于EEA或瑞士）和Meta Platforms, Inc.（如果您位于EEA或瑞士以外）。

许可权利和再分发

a. 权利授予。您被授予在Llama材料中体现的Meta知识产权或Meta拥有的其他权利下的非排他性、全球性、不可转让且免版税的有限许可，以使用、复制、分发、拷贝、创作衍生作品并对Llama材料进行修改。

b. 再分发和使用

i. 如果您分发或提供Llama材料（或其任何衍生作品），或使用其中任何材料的产品或服务，包括另一个AI模型，您应（A）随任何此类Llama材料提供本协议的副本；并且（B）在相关网站、用户界面、博客文章、关于页面或产品文档上显著显示“Built with Meta Llama 3”。如果您使用Llama材料创建、训练、微调或以其他方式改进一个AI模型，并进行分发或提供该模型，您还应在任何此类AI模型名称的开头包含“Llama 3”。

ii. 如果您作为集成最终用户产品的一部分从被许可方处接收Llama材料或其任何衍生作品，则本协议第2条不适用于您。

iv. 您对Llama材料的使用必须遵守适用法律和法规（包括贸易合规法律和法规），并遵守Llama材料的可接受使用政策（可在https://llama.meta.com/llama3/use-policy 找到），该政策特此通过引用并入本协议。

v. 您不得使用Llama材料或Llama材料的任何输出或结果来改进任何其他大语言模型（不包括Meta Llama 3或其衍生作品）。

额外商业条款。如果在Meta Llama 3版本发布日期，被许可方或被许可方关联方提供的产品或服务的月活跃用户在前一个日历月超过7亿月活跃用户，您必须向Meta请求许可，Meta可自行决定是否授予您许可，并且在Meta明确授予您此类权利之前，您无权行使本协议下的任何权利。
warranty免责声明。除非适用法律要求，Llama材料及其任何输出和结果按“现状”提供，不提供任何形式的保证，Meta否认所有明示和暗示的保证，包括但不限于所有权、不侵权、适销性或特定用途适用性的任何保证。您独自负责确定使用或再分发Llama材料的适当性，并承担与您使用Llama材料及其任何输出和结果相关的任何风险。
责任限制。在任何情况下，Meta或其关联方均不对因本协议引起的任何利润损失或任何间接、特殊、后果性、偶发性、惩戒性或惩罚性损害承担责任，无论责任理论是合同、侵权、疏忽、产品责任还是其他，即使Meta或其关联方已被告知任何上述损害的可能性。
知识产权

a. 本协议未授予商标许可，并且与Llama材料相关，除非在描述和再分发Llama材料的合理和惯常使用中需要，或如本节5(a)所述，Meta和被许可方均不得使用对方或其任何关联方拥有或关联的任何名称或标记。Meta特此授予您仅为遵守第1.b.i条最后一句的要求而使用“Llama 3”（“标记”）的许可。您将遵守Meta的品牌指南（目前可在https://about.meta.com/brand/resources/meta/company-brand/ 访问）。因您使用标记而产生的所有商誉将归属于Meta的利益。

b. 鉴于Meta对Llama材料及其为Meta制作的衍生作品的所有权，就您制作的Llama材料的任何衍生作品和修改而言，在您和Meta之间，您是且将是此类衍生作品和修改的所有者。

c. 如果您对Meta或任何实体提起诉讼或其他法律程序（包括在诉讼中的交叉索赔或反诉），声称Llama材料或Meta Llama 3的输出或结果，或上述任何内容的任何部分构成侵犯您拥有或可许可的知识产权或其他权利，则本协议授予您的任何许可将自提起此类诉讼或索赔之日起终止。您将赔偿并使Meta免受任何第三方因您使用或分发Llama材料而产生或与之相关的任何索赔。

期限和终止。本协议的期限将自您接受本协议或访问Llama材料时开始，并将持续完全有效，直至根据本协议的条款和条件终止。如果您违反本协议的任何条款或条件，Meta可终止本协议。本协议终止后，您应删除并停止使用Llama材料。第3、4和7条在本协议终止后仍然有效。
适用法律和管辖权。本协议将受加利福尼亚州法律管辖并依其解释，不考虑法律选择原则，并且《联合国国际货物销售合同公约》不适用于本协议。加利福尼亚州的法院对因本协议引起的任何争议具有专属管辖权。

Meta Llama 3可接受使用政策

Meta致力于促进其工具和功能（包括Meta Llama 3）的安全和公平使用。如果您访问或使用Meta Llama 3，您同意本可接受使用政策（“政策”）。本政策的最新版本可在https://llama.meta.com/llama3/use-policy 找到。

禁止使用情况

我们希望每个人都能安全、负责任地使用Meta Llama 3。您同意您不会使用或允许他人使用Meta Llama 3进行以下行为：

从事、促进、煽动、助长或协助从事违反法律或他人权利的活动，包括：
1. 从事、促进、生成、促成、鼓励、策划、煽动或进一步推动非法或违法活动或内容，例如：
  1. 暴力或恐怖主义
  2. 对儿童的剥削或伤害，包括招揽、创建、获取或传播儿童剥削内容或未能报告儿童性虐待材料
  3. 人口贩运、剥削和性暴力
  4. 向未成年人非法分发信息或材料，包括淫秽材料，或未能对此类信息或材料采用法律要求的年龄限制
  5. 性招揽
  6. 任何其他犯罪活动
2. 从事、促进、煽动或助长对个人或群体的骚扰、虐待、威胁或欺凌
3. 从事、促进、煽动或助长在就业、就业福利、信贷、住房、其他经济福利或其他基本商品和服务的提供方面的歧视或其他非法或有害行为
4. 从事未经授权或无执照的任何职业实践，包括但不限于金融、法律、医疗/健康或相关专业实践
5. 在未获得适用法律要求的权利和同意的情况下，收集、处理、披露、生成或推断个人的健康、人口统计或其他敏感个人或私人信息
6. 从事或助长任何侵犯、盗用或以其他方式侵犯任何第三方权利的行为或生成任何内容，包括使用Llama材料的任何产品或服务的输出或结果
7. 创建、生成或助长恶意代码、恶意软件、计算机病毒的创建，或进行任何可能禁用、负担过重、干扰或损害网站或计算机系统的正常运行、完整性、操作或外观的其他操作
从事、促进、煽动、助长或协助策划或开展对个人造成死亡或身体伤害风险的活动，包括与以下方面相关的Meta Llama 3的使用：
1. 军事、战争、核工业或应用、间谍活动、用于受美国国务院维护的《国际武器贸易条例》（ITAR）管制的材料或活动
2. 枪支和非法武器（包括武器开发）
3. 非法药物和受管制/受控物质
4. 关键基础设施、运输技术或重型机械的操作
5. 自我伤害或伤害他人，包括自杀、切割和饮食失调
6. 任何旨在煽动或促进暴力、虐待或对个人造成身体伤害的内容
故意欺骗或误导他人，包括与以下方面相关的Meta Llama 3的使用：
1. 生成、促进或进一步推动欺诈或虚假信息的创建或传播
2. 生成、促进或进一步推动诽谤性内容，包括创建诽谤性声明、图像或其他内容
3. 生成、促进或进一步分发垃圾邮件
4. 在未经同意、授权或合法权利的情况下冒充他人
5. 声称Meta Llama 3的使用或输出是人类生成的
6. 生成或助长虚假的在线互动，包括虚假评论和其他虚假在线互动方式
未能向最终用户适当披露您的AI系统的任何已知危险

请通过以下方式之一报告任何违反本政策、软件“漏洞”或其他可能导致违反本政策的问题：

报告模型问题：https://github.com/meta-llama/llama3
报告模型生成的风险内容：developers.facebook.com/llama_output_feedback
报告漏洞和安全问题：facebook.com/whitehat/info
报告违反可接受使用政策或未经授权使用Meta Llama 3的情况：LlamaUseReport@meta.com

📖 引用

@article{llama3modelcard,
  title={Llama 3 Model Card},
  author={AI@Meta},
  year={2024},
  url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}