许可证:apache-2.0
基础模型:
- mistralai/Mistral-7B-Instruct-v0.3
基础模型关系:量化
任务标签:文本生成
支持语言:
- 中文
- 英语
- 法语
- 西班牙语
- 葡萄牙语
- 德语
- 意大利语
- 俄语
- 日语
- 韩语
- 越南语
- 泰语
- 阿拉伯语
弹性模型:Mistral-7B-Instruct-v0.3。自托管场景下最快、最灵活的模型
弹性模型由TheStage AI的ANNA(自动化神经网络加速器)生成。通过简单的滑块调节,ANNA可让您控制模型大小、延迟和质量。针对每个模型,ANNA会生成一系列优化版本:
- XL:数学等效的神经网络,经DNN编译器优化。
- L:近乎无损模型,对应基准测试性能下降小于1%。
- M:速度更快的模型,精度下降小于1.5%。
- S:最快模型,精度下降小于2%。
弹性模型目标:
- 为推理提供成本与质量的灵活选择
- 提供清晰的性能和延迟基准
- 通过单行代码兼容HF库(transformers/diffusers)接口
- 支持多硬件平台,预编译无需即时编译
- 为自托管提供最佳模型与服务
注意:具体性能下降程度因模型而异。例如S模型可能仅出现0.5%的性能下降。

推理部署
只需将transformers
替换为elastic_models.transformers
即可:
import torch
from transformers import AutoTokenizer
from elastic_models.transformers import AutoModelForCausalLM
model_name = "mistralai/Mistral-7B-Instruct-v0.3"
hf_token = ''
device = torch.device("cuda")
tokenizer = AutoTokenizer.from_pretrained(model_name, token=hf_token)
model = AutoModelForCausalLM.from_pretrained(
model_name,
token=hf_token,
torch_dtype=torch.bfloat16,
attn_implementation="sdpa",
mode='S'
).to(device)
model.generation_config.pad_token_id = tokenizer.eos_token_id
prompt = "解释DNN量化的基本原理。"
messages = [
{"role": "system", "content": "你是搜索引擎助手,请回答用户查询。"},
{"role": "user", "content": prompt}
]
chat_prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
inputs = tokenizer(chat_prompt, return_tensors="pt").to(device)
with torch.inference_mode():
generate_ids = model.generate(**inputs, max_length=500)
output = tokenizer.batch_decode(
generate_ids[:, inputs['input_ids'].shape[1]:],
skip_special_tokens=True,
clean_up_tokenization_spaces=False
)[0]
print(f"# 问题:\n{prompt}\n")
print(f"# 回答:\n{output}\n")
系统要求:
- GPU:H100/L40s
- CPU:AMD/Intel
- Python:3.10-3.12
安装命令:
pip install thestage
pip install elastic_models[nvidia]\
--index-url https://thestage.jfrog.io/artifactory/api/pypi/pypi-thestage-ai-production/simple\
--extra-index-url https://pypi.nvidia.com\
--extra-index-url https://pypi.org/simple
pip install flash_attn==2.7.3 --no-build-isolation
pip uninstall apex
登录app.thestage.ai获取API令牌并配置:
thestage config set --api-token <您的API令牌>
性能基准
我们致力于提供透明的加速模型性能指标。W8A8, int8
列表示对所有线性层应用8位权值/激活量化,使用与ANNA相同的校准数据。S模型在保持相近速度的同时,通过敏感层量化优化实现了更高质量!
质量基准
指标/模型 |
S |
M |
L |
XL |
原始模型 |
W8A8, int8 |
MMLU |
59.7 |
60.1 |
60.8 |
61.4 |
61.4 |
28 |
PIQA |
80.8 |
82 |
81.7 |
81.5 |
81.5 |
65.3 |
Arc挑战赛 |
56.6 |
55.1 |
56.8 |
57.4 |
57.4 |
33.2 |
Winogrande |
73.2 |
72.3 |
73.2 |
74.1 |
74.1 |
57 |
- MMLU:评估57个学科的综合知识能力
- PIQA:测试日常物理常识推理
- Arc挑战赛:检验小学水平复杂推理题解决能力
- Winogrande:评估上下文消歧的常识推理
延迟基准
100输入/300输出(token/秒)
GPU/模型 |
S |
M |
L |
XL |
原始模型 |
W8A8, int8 |
H100 |
186 |
180 |
168 |
136 |
48 |
192 |
L40s |
79 |
68 |
59 |
47 |
38 |
82 |
相关链接