Llama-3-8B-Instruct-GPTQ-4-Bit开源模型 - 低VRAM设备也能高效运行的AI对话帮手

首页

Llama 3 8B Instruct GPTQ 4 Bit

由 astronomer 开发

这是一个基于Meta Llama 3构建的4位量化GPTQ模型，由Astronomer量化，可在低VRAM设备上高效运行。

大型语言模型

Transformers

开源协议:其他 #低资源推理 #4位量化 #指令微调

下载量 2,059

发布时间 : 4/19/2024

模型简介

该模型是Meta-Llama-3-8B-Instruct的4位量化版本，专为在资源有限的GPU上高效运行而优化，同时保持较高的生成质量。

模型特点

高效量化

4位GPTQ量化技术显著减少模型大小和VRAM需求，同时保持较高的生成质量。

低资源运行

可在不到6GB VRAM的设备上运行，适合Nvidia T4、K80等入门级GPU。

优化推理

支持vLLM和text-generation-webui等多种推理框架，提供高效的文本生成服务。

模型能力

指令跟随

文本生成

问答系统

对话系统

使用案例

对话系统

智能助手

构建响应迅速、理解力强的对话助手

可在资源有限的环境中提供流畅的对话体验

内容生成

文本创作

生成各种类型的文本内容

保持原始模型90%以上的生成质量

🚀 Llama-3-8B-Instruct-GPTQ-4-Bit

本项目提供了 meta-llama/Meta-Llama-3-8B-Instruct 的4位量化GPTQ模型文件。该模型能以不到6GB的VRAM加载，相比原16.07GB的模型大幅减少了内存需求，并且可以使用如Nvidia T4、Nvidia K80、RTX 4070等较便宜的Nvidia GPU实现快速服务。

🚀 快速开始

使用vLLM服务此GPTQ模型

已使用Nvidia T4（16GB VRAM）通过vLLM测试服务此模型。使用以下命令进行测试：

python -m vllm.entrypoints.openai.api_server --model astronomer-io/Llama-3-8B-Instruct-GPTQ-4-Bit --max-model-len 8192 --dtype float16

对于不停生成令牌的问题，请确保向vLLM端点发送包含 stop_token_ids":[128001, 128009] 的请求。示例如下：

{
    "model": "astronomer-io/Llama-3-8B-Instruct-GPTQ-4-Bit",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who created Llama 3?"}
        ],
    "max_tokens": 2000,
    "stop_token_ids":[128001,128009]
}

提示模板

<|begin_of_text|><|start_header_id|>user<|end_header_id|>
{{prompt}}<|eot_id|>
<|start_header_id|>assistant<|end_header_id|>

✨ 主要特性

该模型由 Astronomer 慷慨创建并开源。Astronomer是 Apache Airflow 领域的领先公司，Apache Airflow是数据编排和MLOps领域最受信任的开源框架。
4位GPTQ量化模型在原始 bfloat16 模型的基础上，质量有轻微下降，但可以在更小的GPU上运行，同时显著提高延迟和吞吐量。

📦 安装指南

暂未提供相关安装步骤。

💻 使用示例

暂未提供相关代码示例。

📚 详细文档

模型信息

属性	详情
基础模型	meta-llama/Meta-Llama-3-8B-Instruct
推理	false
模型创建者	astronomer-io
模型名称	Meta-Llama-3-8B-Instruct
模型类型	llama
任务类型	文本生成
提示模板	"{% set loop_messages = messages %}{% for message in loop_messages %}{% set content = '<
量化者	davidxmle
许可证	other
许可证名称	llama-3-community-license
许可证链接	https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct/blob/main/LICENSE
标签	llama, llama-3, facebook, meta, astronomer, gptq, pretrained, quantized, finetuned, autotrain_compatible, endpoints_compatible
数据集	wikitext

GPTQ量化方法

本模型使用AutoGPTQ库进行量化，遵循 GPTQ论文中提到的最佳实践。
量化过程使用指定数据集（目前为wikitext）的随机样本进行校准和对齐，以最小化精度损失。

分支	位数	组大小	激活顺序	阻尼百分比	GPTQ数据集	序列长度	VRAM大小	ExLlama	描述
main	4	128	是	0.1	wikitext	8192	5.74 GB	是	4位量化，有激活顺序，组大小为128g。在精度损失较小的情况下，模型体积最小
更多变体待发布	待定	待定	待定	待定	待定	待定	待定	待定	未来可能会上传使用不同参数（如128g组大小等）的GPTQ 4位模型的其他变体

服务注意事项

⚠️ 重要提示

对于vLLM，加载此模型时，确保所有请求都包含 "stop_token_ids":[128001, 128009]，以暂时解决不停生成的问题。vLLM目前不支持 generation_config.json，vLLM团队正在此处修复此问题。

对于oobabooga/text-generation-webui，通过AutoGPTQ加载模型时，启用 no_inject_fused_attention，这是AutoGPTQ库的一个bug。在 Parameters -> Generation -> Skip special tokens 中关闭此选项（取消选择），并在 Parameters -> Generation -> Custom stopping strings 字段中添加 "<|end_of_text|>","<|eot_id|>"。