许可证:apache-2.0
基础模型:
- meta-llama/Meta-Llama-3.1-8B-Instruct
基础模型关系:量化版本
任务标签:文本生成
支持语言:
- 中文
- 英语
- 法语
- 西班牙语
- 葡萄牙语
- 德语
- 意大利语
- 俄语
- 日语
- 韩语
- 越南语
- 泰语
- 阿拉伯语
弹性模型:Meta-Llama-3.1-8B-Instruct —— 自部署场景下最快、最灵活的模型
弹性模型由TheStage AI的ANNA(自动化神经网络加速器)生成。通过简单滑动控制条,即可调节模型大小、延迟和质量。ANNA为每个模型生成以下优化版本:
- XL:数学等效的神经网络,经DNN编译器优化。
- L:近乎无损模型,基准测试性能下降小于1%。
- M:速度更快的模型,精度下降小于1.5%。
- S:最快模型,精度下降小于2%。
弹性模型目标:
- 为推理提供成本与质量的灵活选择
- 提供清晰的性能和延迟基准
- 兼容HF库(transformers/diffusers),一行代码即可调用
- 支持多硬件平台,预编译无需即时编译(JIT)
- 为自托管场景提供最佳模型与服务
注意:具体质量损失因模型而异。例如S模型可能仅损失0.5%精度。

推理部署
只需将transformers
替换为elastic_models.transformers
即可调用:
import torch
from transformers import AutoTokenizer
from elastic_models.transformers import AutoModelForCausalLM
model_name = "meta-llama/Meta-Llama-3.1-8B-Instruct"
hf_token = ''
device = torch.device("cuda")
tokenizer = AutoTokenizer.from_pretrained(model_name, token=hf_token)
model = AutoModelForCausalLM.from_pretrained(
model_name,
token=hf_token,
torch_dtype=torch.bfloat16,
attn_implementation="sdpa",
mode='S'
).to(device)
model.generation_config.pad_token_id = tokenizer.eos_token_id
prompt = "解释DNN量化的基本原理。"
messages = [
{"role": "system", "content": "你是一个搜索引擎,回答用户查询。"},
{"role": "user", "content": prompt}
]
chat_prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
inputs = tokenizer(chat_prompt, return_tensors="pt").to(device)
with torch.inference_mode():
generate_ids = model.generate(**inputs, max_length=500)
output = tokenizer.batch_decode(
generate_ids[:, inputs['input_ids'].shape[1]:],
skip_special_tokens=True
)[0]
print(f"# 问题:\n{prompt}\n")
print(f"# 回答:\n{output}\n")
系统要求:
- GPU:H100/L40s
- CPU:AMD/Intel
- Python:3.10-3.12
安装命令:
pip install thestage
pip install elastic_models[nvidia] --index-url https://thestage.jfrog.io/artifactory/api/pypi/pypi-thestage-ai-production/simple --extra-index-url https://pypi.nvidia.com --extra-index-url https://pypi.org/simple
pip install flash_attn==2.7.3 --no-build-isolation
pip uninstall apex
登录app.thestage.ai获取API令牌并配置:
thestage config set --api-token <您的API令牌>
性能基准
我们提供透明的加速模型性能指标。W8A8, int8列
表示对所有线性层应用8位权值/激活量化,使用与ANNA相同的校准数据。S模型在保持速度的同时显著提升质量!
质量基准
指标/模型 |
S |
M |
L |
XL |
原始模型 |
W8A8量化 |
MMLU |
65.8 |
66.8 |
67.5 |
68.2 |
68.2 |
24.3 |
PIQA |
77.6 |
79.3 |
79.8 |
79.8 |
79.8 |
64.6 |
Arc挑战赛 |
50.7 |
50.3 |
52.3 |
51.7 |
51.7 |
29.6 |
Winogrande |
72.5 |
72 |
73.3 |
73.9 |
73.9 |
62.8 |
- MMLU:评估57个学科的综合知识能力
- PIQA:测试物理常识推理能力
- Arc挑战赛:衡量小学水平复杂推理能力
- Winogrande:评估上下文消歧能力
延迟基准
输入100/输出300词元时的吞吐量(词元/秒)
GPU/模型 |
S |
M |
L |
XL |
原始模型 |
W8A8量化 |
H100 |
189 |
175 |
159 |
132 |
60 |
191 |
L40s |
73 |
64 |
57 |
45 |
40 |
77 |
相关链接