Elastic-Llama-3.1-8B-Instruct开源模型 - 支持自部署，多样精度速度变体可选

首页

Elastic Llama 3.1 8B Instruct

由 TheStageAI 开发

Meta-Llama-3.1-8B-Instruct 的弹性优化版本，提供不同速度与精度的模型变体，适合自部署场景。

大型语言模型开源协议:Apache-2.0 #弹性推理 #多语言生成 #量化优化

下载量 125

发布时间 : 4/13/2025

模型简介

该模型是Meta-Llama-3.1-8B-Instruct的量化版本，通过ANNA（自动化神经网络加速器）生成，提供XL、L、M、S四种优化版本，用户可根据需求在速度和质量之间灵活选择。

模型特点

弹性调节

通过简单滑动控制条即可调节模型大小、延迟和质量，提供XL、L、M、S四种优化版本。

高性能优化

通过DNN编译器优化，提供数学等效的神经网络，在保持高质量的同时提升推理速度。

多硬件支持

支持多种硬件平台，包括H100/L40s GPU和AMD/Intel CPU，预编译无需即时编译（JIT）。

兼容性

兼容HF库（transformers/diffusers），一行代码即可调用，支持多语言文本生成。

模型能力

多语言文本生成

高质量推理

低延迟响应

弹性模型调节

使用案例

搜索引擎

问答系统

作为搜索引擎回答用户查询，提供高质量的多语言回答。

在MMLU等基准测试中表现优异，综合知识能力评分达65.8（S版本）。

教育

知识解释

解释复杂概念，如DNN量化的基本原理。

在PIQA测试中物理常识推理能力评分达77.6（S版本）。

🚀 弹性模型：Meta-Llama-3.1-8B-Instruct

弹性模型是由TheStage AI的ANNA（自动化神经网络加速器）生成的模型。ANNA允许你通过简单的滑动操作来控制模型的大小、延迟和质量。对于每个模型，ANNA都会生成一系列优化模型：

XL：数学上等效的神经网络，使用我们的DNN编译器进行优化。
L：近乎无损的模型，在相应基准测试中的性能下降不到1%。
M：更快的模型，准确率下降不到1.5%。
S：最快的模型，准确率下降不到2%。

弹性模型的目标：

在推理时，在成本与质量的选择上提供灵活性。
提供清晰的质量和延迟基准。
提供与HF库（transformers和diffusers）的接口，只需一行代码。
提供支持广泛硬件的模型，这些模型是预编译的，无需即时编译（JIT）。
为自托管提供最佳的模型和服务。

⚠️ 重要提示

具体的质量下降情况可能因模型而异。例如，S模型的性能下降也可能只有0.5%。

image/png

🚀 快速开始

📦 安装指南

要使用我们的模型，你需要在终端中运行以下命令：

pip install thestage
pip install elastic_models[nvidia] \
 --index-url https://thestage.jfrog.io/artifactory/api/pypi/pypi-thestage-ai-production/simple \
 --extra-index-url https://pypi.nvidia.com \
 --extra-index-url https://pypi.org/simple

pip install flash_attn==2.7.3 --no-build-isolation
pip uninstall apex

然后，前往 app.thestage.ai 登录，并从你的个人资料页面生成API令牌。设置API令牌的命令如下：

thestage config set --api-token <YOUR_API_TOKEN>

恭喜，现在你可以使用加速模型了！

💻 使用示例

要推理我们的模型，你只需将 transformers 导入替换为 elastic_models.transformers：

import torch
from transformers import AutoTokenizer
from elastic_models.transformers import AutoModelForCausalLM

# Currently we require to have your HF token
# as we use original weights for part of layers and
# model confugaration as well
model_name = "meta-llama/Meta-Llama-3.1-8B-Instruct"
hf_token = ''
device = torch.device("cuda")

# Create mode
tokenizer = AutoTokenizer.from_pretrained(
    model_name, token=hf_token
)
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    token=hf_token,
    torch_dtype=torch.bfloat16,
    attn_implementation="sdpa",
    mode='S'
).to(device)
model.generation_config.pad_token_id = tokenizer.eos_token_id

# Inference simple as transformers library
prompt = "Describe basics of DNNs quantization."
messages = [
  {
    "role": "system",
    "content": "You are a search bot, answer on user text queries."
  },
  {
    "role": "user",
    "content": prompt
  }
]

chat_prompt = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=False
)

inputs = tokenizer(chat_prompt, return_tensors="pt")
inputs.to(device)

with torch.inference_mode():
    generate_ids = model.generate(**inputs, max_length=500)

input_len = inputs['input_ids'].shape[1]
generate_ids = generate_ids[:, input_len:]
output = tokenizer.batch_decode(
    generate_ids,
    skip_special_tokens=True, 
    clean_up_tokenization_spaces=False
)[0]

# Validate answer
print(f"# Q:\n{prompt}\n")
print(f"# A:\n{output}\n")