Llama-3.3-70B-Instruct-FP8-dynamic开源大语言模型 - 多语言支持商业研究，省内存提效率

首页

Llama 3.3 70B Instruct FP8 Dynamic

由 RedHatAI 开发

Llama-3.3-70B-Instruct-FP8-dynamic 是经过优化的大语言模型，通过将激活和权重量化为 FP8 数据类型，减少了 GPU 内存需求并提高了计算吞吐量，支持多语言的商业和研究用途。

大型语言模型

Transformers

支持多种语言#FP8量化优化 #多语言助手 #高吞吐推理

下载量 6,060

发布时间 : 12/11/2024

模型简介

指令微调的文本模型适用于类似助手的聊天场景，预训练模型可适应各种自然语言生成任务，并且 Llama 3.3 模型还支持利用其模型的输出来改进其他模型，包括合成数据生成和蒸馏。

模型特点

FP8 量化优化

通过将激活和权重量化为 FP8 数据类型，减少了 GPU 内存需求（约 50%），并提高了矩阵乘法的计算吞吐量（约 2 倍），同时也将磁盘大小需求减少了约 50%。

多语言支持

支持英语、法语、意大利语、葡萄牙语、印地语、西班牙语、泰语和德语等多种语言，适用于不同语言环境的商业和研究用途。

高效部署

支持使用 vLLM 后端进行高效部署，并兼容 OpenAI 兼容的服务。

模型能力

文本生成

多语言支持

聊天助手

自然语言处理

指令微调

使用案例

商业和研究

多语言聊天助手

适用于不同语言环境的商业和研究用途，提供类似助手的聊天场景支持。

自然语言生成

预训练模型可适应各种自然语言生成任务。

模型改进

合成数据生成

利用模型的输出来改进其他模型，包括合成数据生成和蒸馏。

🚀 Llama-3.3-70B-Instruct-FP8-dynamic

🚀 快速开始

本模型可以使用 vLLM 后端进行高效部署，示例代码如下：

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic"
number_gpus = 1

sampling_params = SamplingParams(temperature=0.7, top_p=0.8, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLM 还支持与 OpenAI 兼容的服务，更多详细信息请参阅文档。

✨ 主要特性

多语言支持：支持英语、法语、意大利语、葡萄牙语、印地语、西班牙语、泰语和德语等多种语言，适用于不同语言环境的商业和研究用途。
模型优化：通过将 Llama-3.3-70B-Instruct 的激活和权重量化为 FP8 数据类型，减少了 GPU 内存需求（约 50%），并提高了矩阵乘法的计算吞吐量（约 2 倍），同时也将磁盘大小需求减少了约 50%。
广泛用途：指令微调的文本模型适用于类似助手的聊天场景，预训练模型可适应各种自然语言生成任务，并且 Llama 3.3 模型还支持利用其模型的输出来改进其他模型，包括合成数据生成和蒸馏。

📦 安装指南

在 Red Hat AI Inference Server 上部署

podman run --rm -it --device nvidia.com/gpu=all -p 8000:8000 \
 --ipc=host \
--env "HUGGING_FACE_HUB_TOKEN=$HF_TOKEN" \
--env "HF_HUB_OFFLINE=0" -v ~/.cache/vllm:/home/vllm/.cache \
--name=vllm \
registry.access.redhat.com/rhaiis/rh-vllm-cuda \
vllm serve \
--tensor-parallel-size 8 \
--max-model-len 32768  \
--enforce-eager --model RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic

更多详细信息请参阅 Red Hat AI Inference Server 文档。

在 Red Hat Enterprise Linux AI 上部署

# 通过 docker 从 Red Hat Registry 下载模型
# 注意：除非指定 --model-dir，否则模型将下载到 ~/.cache/instructlab/models
ilab model download --repository docker://registry.redhat.io/rhelai1/llama-3-3-70b-instruct-fp8-dynamic:1.5

# 通过 ilab 提供模型服务
ilab model serve --model-path ~/.cache/instructlab/models/llama-3-3-70b-instruct-fp8-dynamic
  
# 与模型进行聊天
ilab model chat --model ~/.cache/instructlab/models/llama-3-3-70b-instruct-fp8-dynamic

更多详细信息请参阅 Red Hat Enterprise Linux AI 文档。

在 Red Hat Openshift AI 上部署

# 使用 ServingRuntime 设置 vllm 服务器
# 保存为：vllm-servingruntime.yaml
apiVersion: serving.kserve.io/v1alpha1
kind: ServingRuntime
metadata:
 name: vllm-cuda-runtime # 可选更改：设置唯一名称
 annotations:
   openshift.io/display-name: vLLM NVIDIA GPU ServingRuntime for KServe
   opendatahub.io/recommended-accelerators: '["nvidia.com/gpu"]'
 labels:
   opendatahub.io/dashboard: 'true'
spec:
 annotations:
   prometheus.io/port: '8080'
   prometheus.io/path: '/metrics'
 multiModel: false
 supportedModelFormats:
   - autoSelect: true
     name: vLLM
 containers:
   - name: kserve-container
     image: quay.io/modh/vllm:rhoai-2.20-cuda # 根据需要更改。如果是 AMD：quay.io/modh/vllm:rhoai-2.20-rocm
     command:
       - python
       - -m
       - vllm.entrypoints.openai.api_server
     args:
       - "--port=8080"
       - "--model=/mnt/models"
       - "--served-model-name={{.Name}}"
     env:
       - name: HF_HOME
         value: /tmp/hf_home
     ports:
       - containerPort: 8080
         protocol: TCP

# 将模型附加到 vllm 服务器。这是一个 NVIDIA 模板
# 保存为：inferenceservice.yaml
apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  annotations:
    openshift.io/display-name: llama-3-3-70b-instruct-fp8-dynamic # 可选更改
    serving.kserve.io/deploymentMode: RawDeployment
  name: llama-3-3-70b-instruct-fp8-dynamic        # 指定模型名称。此值将用于在有效负载中调用模型
  labels:
    opendatahub.io/dashboard: 'true'
spec:
  predictor:
    maxReplicas: 1
    minReplicas: 1
    model:
      modelFormat:
        name: vLLM
      name: ''
      resources:
        limits:
          cpu: '2'			# 这是特定于模型的
          memory: 8Gi		# 这是特定于模型的
          nvidia.com/gpu: '1'	# 这是特定于加速器的
        requests:			# 此块同理
          cpu: '1'
          memory: 4Gi
          nvidia.com/gpu: '1'
      runtime: vllm-cuda-runtime	# 必须与上面的 ServingRuntime 名称匹配
      storageUri: oci://registry.redhat.io/rhelai1/modelcar-llama-3-3-70b-instruct-fp8-dynamic:1.5
    tolerations:
    - effect: NoSchedule
      key: nvidia.com/gpu
      operator: Exists

# 首先确保位于要部署模型的项目中
# oc project <项目名称>

# 应用两个资源以运行模型

# 应用 ServingRuntime
oc apply -f vllm-servingruntime.yaml

# 应用 InferenceService
oc apply -f qwen-inferenceservice.yaml

# 替换下面的 <推理服务名称> 和 <集群入口域名>：
# - 如果不确定，请运行 `oc get inferenceservice` 查找您的 URL。

# 使用 curl 调用服务器：
curl https://<推理服务名称>-predictor-default.<域名>/v1/chat/completions
        -H "Content-Type: application/json" \
        -d '{
    "model": "llama-3-3-70b-instruct-fp8-dynamic",
    "stream": true,
    "stream_options": {
        "include_usage": true
    },
    "max_tokens": 1,
    "messages": [
        {
            "role": "user",
            "content": "How can a bee fly when its wings are so small?"
        }
    ]
}'

更多详细信息请参阅 Red Hat Openshift AI 文档。

📚 详细文档

模型概述

模型架构：Meta-Llama-3.1
- 输入：文本
- 输出：文本
模型优化：
- 权重量化：FP8
- 激活量化：FP8
预期用例：适用于多种语言的商业和研究用途。指令微调的文本模型适用于类似助手的聊天场景，预训练模型可适应各种自然语言生成任务。Llama 3.3 模型还支持利用其模型的输出来改进其他模型，包括合成数据生成和蒸馏，Llama 3.3 社区许可证允许这些用例。
适用范围外：禁止以任何违反适用法律法规（包括贸易合规法律）的方式使用，禁止以可接受使用政策和 Llama 3.3 社区许可证禁止的任何其他方式使用，禁止在英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语以外的语言中使用。
发布日期：2024 年 11 月 12 日
版本：1.0
许可证：llama3.3
模型开发者：RedHat (Neural Magic)

模型优化

本模型是通过将 Llama-3.3-70B-Instruct 的激活和权重量化为 FP8 数据类型得到的。这种优化将表示权重和激活的位数从 16 位减少到 8 位，减少了 GPU 内存需求（约 50%），并提高了矩阵乘法的计算吞吐量（约 2 倍），同时也将磁盘大小需求减少了约 50%。

仅对 Transformer 块内线性算子的权重和激活进行量化。权重采用对称静态每通道方案进行量化，而激活采用对称动态每个令牌方案进行量化。量化使用 llm-compressor 库。

模型创建

本模型使用 llm-compressor 创建，代码如下：

from transformers import AutoModelForCausalLM, AutoTokenizer
from llmcompressor.modifiers.quantization import QuantizationModifier
from llmcompressor.transformers import oneshot

# 加载模型
model_stub = "meta-llama/Llama-3.3-70B-Instruct"
model_name = model_stub.split("/")[-1]

tokenizer = AutoTokenizer.from_pretrained(model_stub)

model = AutoModelForCausalLM.from_pretrained(
    model_stub,
    device_map="auto",
    torch_dtype="auto",
)

# 配置量化算法和方案
recipe = QuantizationModifier(
    targets="Linear",
    scheme="FP8_dynamic",
    ignore=["lm_head"],
)

# 应用量化
oneshot(
    model=model,
    recipe=recipe,
)

# 以压缩张量格式保存到磁盘
save_path = model_name + "-FP8-dynamic"
model.save_pretrained(save_path)
tokenizer.save_pretrained(save_path)
print(f"模型和分词器已保存到: {save_path}")

模型评估

本模型在著名的 OpenLLM v1、OpenLLM v2、HumanEval 和 HumanEval+ 基准测试中进行了评估。在所有情况下，模型输出均使用 vLLM 引擎生成。

OpenLLM v1 和 v2 评估使用 lm-evaluation-harness 进行，并在可用时使用 Meta-Llama-3.1-Instruct-evals 的提示风格。

HumanEval 和 HumanEval+ 评估使用 Neural Magic 对 EvalPlus 仓库的分支进行。

评估详情

点击展开评估详情

MMLU

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_llama \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU-CoT

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=4064,max_gen_toks=1024,tensor_parallel_size=1 \
  --tasks mmlu_cot_llama \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

ARC-Challenge

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=3940,max_gen_toks=100,tensor_parallel_size=1 \
  --tasks arc_challenge_llama \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

GSM-8K

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=4096,max_gen_toks=1024,tensor_parallel_size=1 \
  --tasks gsm8k_llama \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 8 \
  --batch_size auto

Hellaswag

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks hellaswag \
  --num_fewshot 10 \
  --batch_size auto

Winogrande

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks winogrande \
  --num_fewshot 5 \
  --batch_size auto

TruthfulQA

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks truthfulqa \
  --num_fewshot 0 \
  --batch_size auto

OpenLLM v2

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=4096,tensor_parallel_size=1,enable_chunked_prefill=True \
  --apply_chat_template \
  --fewshot_as_multiturn \
  --tasks leaderboard \
  --batch_size auto

MMLU 葡萄牙语

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_pt_llama \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 西班牙语

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_es_llama \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 意大利语

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_it_llama \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 德语

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_de_llama \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 法语

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_fr_llama \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 印地语

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_hi_llama \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 泰语

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_th_llama \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

HumanEval 和 HumanEval+ 生成

python3 codegen/generate.py \
  --model RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic \
  --bs 16 \
  --temperature 0.2 \
  --n_samples 50 \
  --root "." \
  --dataset humaneval

清理

python3 evalplus/sanitize.py \
  humaneval/RedHatAI--Llama-3.3-70B-Instruct-FP8-dynamic_vllm_temp_0.2

评估

evalplus.evaluate \
  --dataset humaneval \
  --samples humaneval/RedHatAI--Llama-3.3-70B-Instruct-FP8-dynamic_vllm_temp_0.2-sanitized

准确率

类别	基准测试	Llama-3.3-70B-Instruct	Llama-3.3-70B-Instruct-FP8-dynamic（本模型）	恢复率
OpenLLM v1	MMLU (5-shot)	81.60	81.31	99.6%
OpenLLM v1	MMLU (CoT, 0-shot)	86.58	86.34	99.7%
OpenLLM v1	ARC Challenge (0-shot)	49.23	51.96	105.6%
OpenLLM v1	GSM-8K (CoT, 8-shot, strict-match)	94.16	94.92	100.8%
OpenLLM v1	Hellaswag (10-shot)	86.49	86.43	99.9%
OpenLLM v1	Winogrande (5-shot)	84.77	84.53	99.7%
OpenLLM v1	TruthfulQA (0-shot, mc2)	62.75	63.21	100.7%
OpenLLM v1	平均	77.94	78.39	100.6%
OpenLLM v2	MMLU-Pro (5-shot)	51.89	51.50	99.3%
OpenLLM v2	IFEval (0-shot)	90.89	90.92	100.0%
OpenLLM v2	BBH (3-shot)	63.15	62.84	99.5%
OpenLLM v2	Math-lvl-5 (4-shot)	0.17	0.33	N/A
OpenLLM v2	GPQA (0-shot)	46.10	46.30	100.4%
OpenLLM v2	MuSR (0-shot)	44.35	43.96	99.1%
OpenLLM v2	平均	49.42	49.31	99.8%
编码	HumanEval pass@1	83.20	83.70	100.6%
编码	HumanEval+ pass@1	78.40	78.70	100.4%
多语言	葡萄牙语 MMLU (5-shot)	79.76	79.75	100.0%
多语言	西班牙语 MMLU (5-shot)	79.33	79.17	99.8%
多语言	意大利语 MMLU (5-shot)	79.15	78.84	99.6%
多语言	德语 MMLU (5-shot)	77.94	77.95	100.0%
多语言	法语 MMLU (5-shot)	75.69	75.45	99.7%
多语言	印地语 MMLU (5-shot)	73.81	73.71	99.9%
多语言	泰语 MMLU (5-shot)	71.98	71.77	99.7%

🔧 技术细节

量化方案

仅对 Transformer 块内线性算子的权重和激活进行量化。权重采用对称静态每通道方案进行量化，而激活采用对称动态每个令牌方案进行量化。使用 llm-compressor 库进行量化。

评估基准

本模型在 OpenLLM v1、OpenLLM v2、HumanEval 和 HumanEval+ 等多个基准测试中进行了评估。OpenLLM v1 和 v2 评估使用 lm-evaluation-harness 进行，并在可用时使用 Meta-Llama-3.1-Instruct-evals 的提示风格。HumanEval 和 HumanEval+ 评估使用 Neural Magic 对 EvalPlus 仓库的分支进行。