Elastic-DeepSeek-R1-Distill-Llama-8B开源模型 - 多版本适配多场景，支持多语言文本生成

首页

Elastic DeepSeek R1 Distill Llama 8B

由 TheStageAI 开发

由TheStage AI的ANNA生成的弹性模型，提供多种优化版本以适应不同场景需求，支持多语言文本生成。

大型语言模型支持多种语言开源协议:Apache-2.0 #弹性推理 #多语言生成 #低延迟优化

下载量 60

发布时间 : 4/24/2025

模型简介

DeepSeek-R1-Distill-Llama-8B是一个基于Llama架构的8B参数大语言模型，通过ANNA技术提供多种优化版本（XL/L/M/S），在自托管场景下实现高效推理。

模型特点

弹性版本选择

提供XL/L/M/S四种优化版本，用户可根据需求在模型质量与推理速度间灵活权衡

多硬件支持

支持H100/L40s GPU和AMD/Intel CPU，预编译无需即时编译

多语言能力

支持13种语言的文本生成任务

量化优化

ANNA技术优化敏感层量化效果，S版在保持速度的同时显著提升质量

模型能力

多语言文本生成

知识问答

常识推理

语境理解

使用案例

智能助手

搜索问答助手

回答用户各类知识性问题

在MMLU测试中达到54.7-55.5分（满分100）

内容生成

多语言内容创作

生成13种语言的营销文案或社交媒体内容

🚀 弹性模型：DeepSeek - R1 - Distill - Llama - 8B。用于自助服务的最快、最灵活的模型

弹性模型是由TheStage AI的ANNA（自动化神经网络加速器）生成的模型。通过ANNA，你只需简单地滑动滑块，就能控制模型的大小、延迟和质量。对于每个模型，ANNA都会生成一系列优化模型：

XL：数学上等效的神经网络，使用我们的DNN编译器进行优化。
L：近乎无损的模型，在相应基准测试中的性能下降不到1%。
M：更快的模型，准确率下降不到1.5%。
S：最快的模型，准确率下降不到2%。

弹性模型的目标：

在推理时，为成本与质量的选择提供灵活性。
提供清晰的质量和延迟基准。
提供HF库（如transformers和diffusers）的接口，只需一行代码即可调用。
提供支持多种硬件的模型，这些模型已预编译，无需即时编译（JIT）。
为自托管提供最佳的模型和服务。

⚠️ 重要提示

需要注意的是，具体的质量下降情况会因模型而异。例如，S模型的准确率下降可能仅为0.5%。

性能图表

🚀 快速开始

📦 安装指南

要使用我们的模型，只需在终端中运行以下命令：

pip install thestage
pip install elastic_models[nvidia]\
 --index-url https://thestage.jfrog.io/artifactory/api/pypi/pypi-thestage-ai-production/simple\
 --extra-index-url https://pypi.nvidia.com\
 --extra-index-url https://pypi.org/simple

pip install flash_attn==2.7.3 --no-build-isolation
pip uninstall apex

然后，访问app.thestage.ai，登录并从你的个人资料页面生成API令牌。设置API令牌的命令如下：

thestage config set --api-token <YOUR_API_TOKEN>

恭喜，现在你可以使用加速模型了！

💻 使用示例

基础用法

要对我们的模型进行推理，你只需将transformers的导入替换为elastic_models.transformers：

import torch
from transformers import AutoTokenizer
from elastic_models.transformers import AutoModelForCausalLM

# 目前我们需要你提供HF令牌
# 因为我们部分层使用了原始权重
# 同时也使用了模型配置
model_name = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B"
hf_token = ''
device = torch.device("cuda")

# 创建模型
tokenizer = AutoTokenizer.from_pretrained(
    model_name, token=hf_token
)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    token=hf_token,
    torch_dtype=torch.bfloat16,
    attn_implementation="sdpa",
    mode='S'
).to(device)
model.generation_config.pad_token_id = tokenizer.eos_token_id

# 推理过程与transformers库一样简单
prompt = "Describe basics of DNNs quantization."
messages = [
  {
    "role": "system",
    "content": "You are a search bot, answer on user text queries."
  },
  {
    "role": "user",
    "content": prompt
  }
]

chat_prompt = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=False
)

inputs = tokenizer(chat_prompt, return_tensors="pt")
inputs.to(device)

with torch.inference_mode():
    generate_ids = model.generate(**inputs, max_length=500)

input_len = inputs['input_ids'].shape[1]
generate_ids = generate_ids[:, input_len:]
output = tokenizer.batch_decode(
    generate_ids,
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False
)[0]

# 验证答案
print(f"# Q:\n{prompt}\n")
print(f"# A:\n{output}\n")

系统要求

GPU：H100、L40s
CPU：AMD、Intel
Python：3.10 - 3.12

📚 详细文档

基准测试

基准测试是模型加速过程中最重要的步骤之一。我们的目标是为使用我们算法的模型提供清晰的性能指标。W8A8, int8列表示我们对所有线性层应用了W8A8量化（使用int8数据类型），并使用了与ANNA相同的校准数据。S模型在速度上几乎相同，但质量要高得多，因为ANNA知道如何提高敏感层的量化质量！

质量基准

指标/模型	S	M	L	XL	原始模型	W8A8, int8
arc_challenge	38.70	40.40	40.40	40.50	40.50	19.30
mmlu	52.70	54.70	55.50	54.80	54.80	47.70
piqa	76.30	75.90	75.70	76.10	76.10	55.00
winogrande	66.60	66.20	67.80	68.00	68.00	56.10