Meta-Llama-3.1-8B-Instruct量化开源模型 - 多语言商业研究免费可用

首页

Meta Llama 3.1 8B Instruct Quantized.w8a8

由 RedHatAI 开发

这是Meta-Llama-3.1-8B-Instruct模型的INT8量化版本，通过权重量化和激活量化优化，适用于多语言商业和研究用途。

大型语言模型

Transformers

支持多种语言#INT8量化 #多语言助手 #高效推理

下载量 9,087

发布时间 : 4/25/2025

模型简介

该模型是Meta-Llama-3.1-8B-Instruct的量化版本，适用于类似助手的聊天场景，支持多种语言。

模型特点

INT8量化

通过将权重和激活量化为INT8，显著降低GPU内存需求和磁盘空间占用。

高效推理

量化优化提高了矩阵乘法计算吞吐量约2倍，适合高效部署。

多语言支持

支持包括英语、德语、法语等多种语言的文本生成任务。

模型能力

文本生成

多语言处理

聊天助手

使用案例

聊天机器人

多语言聊天助手

部署为支持多种语言的聊天机器人，提供自然流畅的对话体验。

在Arena-Hard评估中达到105.4%的恢复率。

商业应用

客户服务自动化

用于自动化客户服务，处理多语言客户咨询。

🚀 Meta-Llama-3.1-8B-Instruct量化模型（w8a8）

本项目是Meta-Llama-3.1-8B-Instruct的量化版本，通过将权重和激活量化为INT8数据类型，减少了GPU内存需求和磁盘空间占用，同时提高了计算吞吐量。该模型支持多语言，适用于商业和研究用途，可用于类似助手的聊天场景。

🚀 快速开始

此模型可使用 vLLM 后端高效部署，示例代码如下：

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8"
number_gpus = 1
max_model_len = 8192

sampling_params = SamplingParams(temperature=0.6, top_p=0.9, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus, max_model_len=max_model_len)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLM 还支持与 OpenAI 兼容的服务，更多详细信息请参阅文档。

✨ 主要特性

模型架构：Meta-Llama-3，输入输出均为文本。
模型优化：采用 INT8 激活量化和权重量化，减少 GPU 内存需求约 50%，提高矩阵乘法计算吞吐量约 2 倍，同时磁盘空间需求也减少约 50%。
多语言支持：支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等多种语言。
适用场景：适用于商业和研究用途，可用于类似助手的聊天场景。

📦 模型信息

属性	详情
模型类型	Meta-Llama-3.1-8B-Instruct 量化版本（w8a8）
训练数据	未提及
支持语言	英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语、泰语
发布日期	2024 年 7 月 11 日
版本	1.0
许可证	Llama3.1
模型开发者	Neural Magic

💻 使用示例

基础用法

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8"
number_gpus = 1
max_model_len = 8192

sampling_params = SamplingParams(temperature=0.6, top_p=0.9, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus, max_model_len=max_model_len)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

高级用法

# 此代码展示了如何使用 vLLM 生成文本，并对生成的文本进行处理
from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8"
number_gpus = 1
max_model_len = 8192

sampling_params = SamplingParams(temperature=0.6, top_p=0.9, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus, max_model_len=max_model_len)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
# 对生成的文本进行处理，例如去除首尾空格
processed_text = generated_text.strip()
print(processed_text)

📚 详细文档

模型创建

此模型使用 llm-compressor 库创建，示例代码如下：

from transformers import AutoTokenizer
from datasets import Dataset
from llmcompressor.transformers import SparseAutoModelForCausalLM, oneshot
from llmcompressor.modifiers.quantization import GPTQModifier
import random

model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"

num_samples = 256
max_seq_len = 8192

tokenizer = AutoTokenizer.from_pretrained(model_id)

max_token_id = len(tokenizer.get_vocab()) - 1
input_ids = [[random.randint(0, max_token_id) for _ in range(max_seq_len)] for _ in range(num_samples)]
attention_mask = num_samples * [max_seq_len * [1]]
ds = Dataset.from_dict({"input_ids": input_ids, "attention_mask": attention_mask})

recipe = GPTQModifier(
  targets="Linear",
  scheme="W8A8",
  ignore=["lm_head"],
  dampening_frac=0.01,
)

model = SparseAutoModelForCausalLM.from_pretrained(
  model_id,
  device_map="auto",
)

oneshot(
  model=model,
  dataset=ds,
  recipe=recipe,
  max_seq_length=max_seq_len,
  num_calibration_samples=num_samples,
)

model.save_pretrained("Meta-Llama-3.1-8B-Instruct-quantized.w8a8")

模型评估

此模型在 Arena-Hard、OpenLLM v1、OpenLLM v2、HumanEval 和 HumanEval+ 等知名基准测试中进行了评估，所有评估均使用 vLLM 引擎生成模型输出。

评估结果

类别	基准测试	Meta-Llama-3.1-8B-Instruct	Meta-Llama-3.1-8B-Instruct-quantized.w8a8（本模型）	恢复率
LLM 评判	Arena Hard	25.8 (25.1 / 26.5)	27.2 (27.6 / 26.7)	105.4%
OpenLLM v1	MMLU (5-shot)	68.3	67.8	99.3%
OpenLLM v1	MMLU (CoT, 0-shot)	72.8	72.2	99.1%
OpenLLM v1	ARC Challenge (0-shot)	81.4	81.7	100.3%
OpenLLM v1	GSM-8K (CoT, 8-shot, strict-match)	82.8	84.8	102.5%
OpenLLM v1	Hellaswag (10-shot)	80.5	80.3	99.8%
OpenLLM v1	Winogrande (5-shot)	78.1	78.5	100.5%
OpenLLM v1	TruthfulQA (0-shot, mc2)	54.5	54.7	100.3%
OpenLLM v1	平均	74.1	74.3	100.3%
OpenLLM v2	MMLU-Pro (5-shot)	30.8	30.9	100.3%
OpenLLM v2	IFEval (0-shot)	77.9	78.0	100.1%
OpenLLM v2	BBH (3-shot)	30.1	31.0	102.9%
OpenLLM v2	Math-lvl-5 (4-shot)	15.7	15.5	98.9%
OpenLLM v2	GPQA (0-shot)	3.7	5.4	146.2%
OpenLLM v2	MuSR (0-shot)	7.6	7.6	100.0%
OpenLLM v2	平均	27.6	28.0	101.5%
编码	HumanEval pass@1	67.3	67.1	99.7%
编码	HumanEval+ pass@1	60.7	60.0	98.8%
多语言	葡萄牙语 MMLU (5-shot)	59.96	59.36	99.0%
多语言	西班牙语 MMLU (5-shot)	60.25	59.77	99.2%
多语言	意大利语 MMLU (5-shot)	59.23	58.61	99.0%
多语言	德语 MMLU (5-shot)	58.63	58.23	99.3%
多语言	法语 MMLU (5-shot)	59.65	58.70	98.4%
多语言	印地语 MMLU (5-shot)	50.10	49.33	98.5%
多语言	泰语 MMLU (5-shot)	49.12	48.09	97.9%

结果复现

以下是复现评估结果的命令：

MMLU

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU-CoT

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=4064,max_gen_toks=1024,tensor_parallel_size=1 \
  --tasks mmlu_cot_0shot_llama_3.1_instruct \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

ARC-Challenge

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3940,max_gen_toks=100,tensor_parallel_size=1 \
  --tasks arc_challenge_llama_3.1_instruct \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

GSM-8K

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=4096,max_gen_toks=1024,tensor_parallel_size=1 \
  --tasks gsm8k_cot_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 8 \
  --batch_size auto

Hellaswag

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks hellaswag \
  --num_fewshot 10 \
  --batch_size auto

Winogrande

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks winogrande \
  --num_fewshot 5 \
  --batch_size auto

TruthfulQA

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks truthfulqa \
  --num_fewshot 0 \
  --batch_size auto

OpenLLM v2

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=4096,tensor_parallel_size=1,enable_chunked_prefill=True \
  --apply_chat_template \
  --fewshot_as_multiturn \
  --tasks leaderboard \
  --batch_size auto

MMLU 葡萄牙语

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_pt_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 西班牙语

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_es_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 意大利语

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_it_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 德语

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_de_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 法语

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_fr_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 印地语

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_hi_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 泰语

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_th_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

HumanEval 和 HumanEval+

生成

python3 codegen/generate.py \
  --model neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8 \
  --bs 16 \
  --temperature 0.2 \
  --n_samples 50 \
  --root "." \
  --dataset humaneval

清理

python3 evalplus/sanitize.py \
  humaneval/neuralmagic--Meta-Llama-3.1-8B-Instruct-quantized.w8a8_vllm_temp_0.2

评估

evalplus.evaluate \
  --dataset humaneval \
  --samples humaneval/neuralmagic--Meta-Llama-3.1-8B-Instruct-quantized.w8a8_vllm_temp_0.2-sanitized

🔧 技术细节

模型优化

此模型通过将 Meta-Llama-3.1-8B-Instruct 的权重量化为 INT8 数据类型获得。这种优化将表示权重和激活的位数从 16 位减少到 8 位，从而减少了 GPU 内存需求（约 50%）并提高了矩阵乘法计算吞吐量（约 2 倍）。权重量化还将磁盘空间需求减少了约 50%。

仅对 Transformer 块内线性算子的权重和激活进行量化。权重采用对称静态逐通道方案进行量化，为每个输出通道维度在 INT8 和浮点表示之间应用固定的线性缩放因子。激活采用对称动态逐令牌方案进行量化，在运行时为每个令牌计算 INT8 和浮点表示之间的线性缩放因子。量化使用 GPTQ 算法，该算法在 llm-compressor 库中实现。GPTQ 使用 1% 的阻尼因子和 256 个长度为 8192 的随机令牌序列。