license: apache-2.0
base_model:
- meta-llama/Llama-3.2-1B-Instruct
base_model_relation: quantized
pipeline_tag: text2text-generation
language:
- 中文
- 英文
- 法语
- 西班牙语
- 葡萄牙语
- 德语
- 意大利语
- 俄语
- 日语
- 韩语
- 越南语
- 泰语
- 阿拉伯语
弹性模型:Llama-3.2-1B-Instruct。自托管场景下最快最灵活的模型
弹性模型是由TheStage AI ANNA(自动神经网络加速器)生成的模型系列。通过简单滑动控制条,您可自由调节模型体积、推理延迟与质量平衡。针对每个基础模型,ANNA会生成以下优化版本:
- XL版:数学等效的神经网络,经DNN编译器深度优化
- L版:近无损模型,基准测试质量衰减小于1%
- M版:加速模型,精度损失控制在1.5%以内
- S版:极速模型,精度损失不超过2%
弹性模型核心价值:
- 提供推理场景下成本与质量的灵活选择
- 提供清晰的质量与延迟基准数据
- 单行代码即可兼容HF生态(transformers/diffusers)
- 支持多硬件平台,预编译免JIT
- 为自托管场景提供最佳模型解决方案
注意:具体质量衰减因模型而异,例如S版可能仅产生0.5%的性能下降

推理部署
只需将标准transformers
导入替换为elastic_models.transformers
即可:
import torch
from transformers import AutoTokenizer
from elastic_models.transformers import AutoModelForCausalLM
model_name = "meta-llama/Llama-3.2-1B-Instruct"
hf_token = ''
device = torch.device("cuda")
tokenizer = AutoTokenizer.from_pretrained(
model_name, token=hf_token
)
model = AutoModelForCausalLM.from_pretrained(
model_name,
token=hf_token,
torch_dtype=torch.bfloat16,
attn_implementation="sdpa",
mode='S'
).to(device)
model.generation_config.pad_token_id = tokenizer.eos_token_id
prompt = "解释DNN量化的基本原理。"
messages = [
{"role": "system", "content": "你是一个搜索引擎,请回答用户查询。"},
{"role": "user", "content": prompt}
]
chat_prompt = tokenizer.apply_chat_template(
messages, add_generation_prompt=True, tokenize=False
)
inputs = tokenizer(chat_prompt, return_tensors="pt").to(device)
with torch.inference_mode:
generate_ids = model.generate(**inputs, max_length=500)
output = tokenizer.decode(
generate_ids[:, inputs['input_ids'].shape[1]:],
skip_special_tokens=True
)
print(f"# 问题:\n{prompt}\n# 回答:\n{output}")
系统要求:
- GPU:H100/L40s
- CPU:AMD/Intel
- Python:3.10-3.12
安装命令:
pip install thestage
pip install elastic_models[nvidia]\
--index-url https://thestage.jfrog.io/artifactory/api/pypi/pypi-thestage-ai-production/simple\
--extra-index-url https://pypi.nvidia.com\
--extra-index-url https://pypi.org/simple
pip install flash_attn==2.7.3 --no-build-isolation
pip uninstall apex
登录app.thestage.ai获取API令牌后配置:
thestage config set --api-token <您的API令牌>
现在即可使用加速模型!
性能基准
我们致力于提供透明的模型加速性能数据。W8A8-int8列
表示我们对所有线性层应用8位权值/激活量化,使用与ANNA相同的校准数据。S版模型在保持相近速度的同时,通过敏感层优化实现了更优质量!
质量基准
指标/模型 |
S |
M |
L |
XL |
原始模型 |
W8A8-int8 |
MMLU |
45.5 |
45.9 |
45.9 |
46.2 |
46.2 |
24.0 |
PIQA |
73.1 |
73.7 |
74.2 |
74.3 |
74.3 |
55.8 |
Arc挑战赛 |
34.5 |
35.9 |
36.0 |
35.8 |
35.8 |
20.3 |
Winogrande |
60.4 |
59.7 |
60.8 |
59.5 |
59.5 |
50.3 |
- MMLU:涵盖57个学科的综合知识评估,反映模型处理多元学术主题的能力
- PIQA:通过日常物理互动问题评估常识推理,展示对现实物理概念的理解
- Arc挑战赛:需要推理的小学水平选择题,检验复杂逻辑处理能力
- Winogrande:通过句子补全评估常识推理,体现上下文理解与歧义消除能力
延迟基准
100输入/300输出 tokens (tokens/秒)
GPU/模型 |
S |
M |
L |
XL |
原始模型 |
W8A8-int8 |
H100 |
436 |
436 |
409 |
396 |
110 |
439 |
L40s |
290 |
251 |
222 |
210 |
103 |
300 |
相关链接