许可证:apache-2.0
基础模型:
- deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
基础模型关系:量化
任务标签:文本生成
支持语言:
- 中文
- 英语
- 法语
- 西班牙语
- 葡萄牙语
- 德语
- 意大利语
- 俄语
- 日语
- 韩语
- 越南语
- 泰语
- 阿拉伯语
弹性模型:DeepSeek-R1-Distill-Qwen-7B。自托管场景下最快且最灵活的模型
弹性模型由TheStage AI的ANNA(自动化神经网络加速器)生成。通过简单滑动控制条,ANNA可让您灵活调整模型大小、延迟与质量。针对每个模型,ANNA会生成一系列优化版本:
- XL版:数学等效的神经网络,经DNN编译器优化。
- L版:近乎无损模型,基准测试性能下降小于1%。
- M版:速度更快的模型,精度下降小于1.5%。
- S版:最快模型,精度下降小于2%。
弹性模型目标:
- 为推理提供成本与质量的灵活选择
- 提供清晰的性能与延迟基准
- 通过单行代码集成HF库(transformers/diffusers)接口
- 支持多硬件平台,预编译无需即时编译
- 为自托管提供最佳模型与服务
注意:具体质量损失因模型而异,例如S版可能仅损失0.5%精度。

推理部署
只需将transformers
导入替换为elastic_models.transformers
即可:
import torch
from transformers import AutoTokenizer
from elastic_models.transformers import AutoModelForCausalLM
model_name = "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B"
hf_token = ''
device = torch.device("cuda")
tokenizer = AutoTokenizer.from_pretrained(model_name, token=hf_token)
model = AutoModelForCausalLM.from_pretrained(
model_name,
token=hf_token,
torch_dtype=torch.bfloat16,
attn_implementation="sdpa",
mode='S'
).to(device)
model.generation_config.pad_token_id = tokenizer.eos_token_id
prompt = "解释DNN量化的基本原理。"
messages = [
{"role": "system", "content": "你是一个搜索助手,请回答用户提问。"},
{"role": "user", "content": prompt}
]
chat_prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
inputs = tokenizer(chat_prompt, return_tensors="pt").to(device)
with torch.inference_mode():
generate_ids = model.generate(**inputs, max_length=500)
output = tokenizer.batch_decode(generate_ids[:, inputs['input_ids'].shape[1]:],
skip_special_tokens=True)[0]
print(f"# 问题:\n{prompt}\n# 回答:\n{output}")
系统要求:
- GPU:H100/L40s
- CPU:AMD/Intel
- Python:3.10-3.12
安装命令:
pip install thestage
pip install elastic_models[nvidia] --index-url https://thestage.jfrog.io/artifactory/api/pypi/pypi-thestage-ai-production/simple --extra-index-url https://pypi.nvidia.com --extra-index-url https://pypi.org/simple
pip install flash_attn==2.7.3 --no-build-isolation
pip uninstall apex
登录app.thestage.ai获取API令牌并配置:
thestage config set --api-token <您的API令牌>
基准测试
我们提供透明的模型加速性能指标。W8A8, int8
列表示对所有线性层应用8位权重量化(使用与ANNA相同的校准数据)。S版在保持速度的同时显著提升质量,因ANNA能优化敏感层的量化效果!
质量基准
指标/模型 |
S版 |
M版 |
L版 |
XL版 |
原版 |
W8A8量化版 |
arc_challenge |
41.00 |
40.90 |
42.50 |
42.20 |
42.20 |
21.00 |
mmlu |
52.00 |
53.80 |
55.10 |
55.20 |
55.20 |
48.00 |
piqa |
68.40 |
70.60 |
70.70 |
70.50 |
70.50 |
50.40 |
winogrande |
60.10 |
60.90 |
60.20 |
60.10 |
60.10 |
51.10 |
- MMLU:评估57个学科的综合知识,反映模型处理学术话题的能力
- PIQA:通过日常物理互动问题评估常识推理,测试现实物理概念理解
- Arc Challenge:小学水平选择题推理测试,展示复杂逻辑处理能力
- Winogrande:通过句子补全评估常识推理,检验上下文理解与歧义消除
延迟基准
100输入/300输出 tokens(每秒处理数)
GPU/模型 |
S版 |
M版 |
L版 |
XL版 |
原版 |
W8A8量化版 |
H100 |
204 |
185 |
161 |
135 |
62 |
205 |
L40S |
78 |
69 |
60 |
47 |
43 |
78 |
相关链接