基础模型: meta-llama/Meta-Llama-3-8B-Instruct
推理: false
模型创建者: astronomer-io
模型名称: Meta-Llama-3-8B-Instruct
模型类型: llama
管道标签: 文本生成
提示模板: "{% set loop_messages = messages %}{% for message in loop_messages %}{% set content = '<|start_header_id|>' + message['role'] + '<|end_header_id|>\n\n'+ message['content'] | trim + '<|eot_id|>' %}{% if loop.index0 == 0 %}{% set content = bos_token + content %}{% endif %}{{ content }}{% endfor %}{% if add_generation_prompt %}{{ '<|start_header_id|>assistant<|end_header_id|>\n\n' }}{% endif %}"
量化者: davidxmle
许可证: other
许可证名称: llama-3-community-license
许可证链接: https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct/blob/main/LICENSE
标签:
- llama
- llama-3
- facebook
- meta
- astronomer
- gptq
- 预训练
- 量化
- 微调
- 自动训练兼容
- 端点兼容
数据集:
- wikitext
Llama-3-8B-Instruct-GPTQ-4-Bit
关于使用vLLM和oobabooga/text-generation-webui的重要说明
- 要将此模型加载到vLLM上,请确保所有请求都有
"stop_token_ids":[128001, 128009]
,以暂时解决非停止生成问题。
- vLLM尚未尊重
generation_config.json
。
- vLLM团队正在修复此问题 https://github.com/vllm-project/vllm/issues/4180
- 对于oobabooga/text-generation-webui
- 通过AutoGPTQ加载模型,启用
no_inject_fused_attention
。这是AutoGPTQ库的一个错误。
- 在
参数
-> 生成
-> 跳过特殊标记
:关闭此选项(取消选中)
- 在
参数
-> 生成
-> 自定义停止字符串
:在字段中添加"<|end_of_text|>","<|eot_id|>"
描述
此仓库包含meta-llama/Meta-Llama-3-8B-Instruct的4位量化GPTQ模型文件。
此模型可以在不到6GB的VRAM下加载(比原始的16.07GB模型大幅减少),并且可以在最便宜的Nvidia GPU(Nvidia T4、Nvidia K80、RTX 4070等)上快速提供服务。
4位GPTQ量化相对于原始的bfloat16
模型有轻微的质量下降,但可以在更小的GPU上提供服务,最大程度地提高延迟和吞吐量。
GPTQ量化方法
- 此模型使用AutoGPTQ库进行量化,遵循GPTQ论文中记录的最佳实践
- 量化校准和对齐使用指定数据集(目前为wikitext)的随机样本,以最小化精度损失。
分支 |
位数 |
组大小 |
激活顺序 |
阻尼% |
GPTQ数据集 |
序列长度 |
VRAM大小 |
ExLlama |
描述 |
main |
4 |
128 |
是 |
0.1 |
wikitext |
8192 |
5.74 GB |
是 |
4位,带激活顺序和128g组大小。最小可能的模型,精度损失小 |
更多变体即将推出 |
TBD |
TBD |
TBD |
TBD |
TBD |
TBD |
TBD |
TBD |
未来可能会上传使用不同参数(如128g组大小等)的GPTQ 4位模型的其他变体。 |
使用vLLM服务此GPTQ模型
使用Nvidia T4(16GB VRAM)测试了通过vLLM服务此模型。
使用以下命令测试
python -m vllm.entrypoints.openai.api_server --model astronomer-io/Llama-3-8B-Instruct-GPTQ-4-Bit --max-model-len 8192 --dtype float16
对于非停止标记生成错误,请确保向vLLM端点发送带有stop_token_ids":[128001, 128009]
的请求
示例:
{
"model": "astronomer-io/Llama-3-8B-Instruct-GPTQ-4-Bit",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Who created Llama 3?"}
],
"max_tokens": 2000,
"stop_token_ids":[128001,128009]
}
提示模板
<|begin_of_text|><|start_header_id|>user<|end_header_id|>
{{prompt}}<|eot_id|>
<|start_header_id|>assistant<|end_header_id|>
贡献者