license: mit
language:
- zh
- en
base_model:
- inclusionAI/Ling-lite
pipeline_tag: text-generation
玲珑线性预览版
🤗 Hugging Face
模型简介
玲珑线性预览版是由InclusionAI开源发布的混合线性稀疏大语言模型,总参数量17.1B,激活参数量3.0B。该模型基于混合线性注意力机制实现长文本推理,在推理过程中具备近线性计算复杂度与近恒定空间复杂度。本模型由基于softmax注意力的玲珑0220版转换而来,在标准化推理基准测试中性能与DeepSeek-R1-Distill-Qwen-7B相当,同时显著降低了训练和推理阶段的算力开销。在基于vLLM的生成速度测试中,我们发现其吞吐量达到同规模softmax注意力模型(如玲珑)的两倍以上。据我们所知,这是首个开源的混合线性推理大语言模型。
模型下载
性能评估
在推理能力评估方面,玲珑线性预览版在AIME24测试中取得55.0分,在MATH-500测试中达到93.8分。
模型 |
AIME24 |
MATH-500 |
GPQA钻石级 |
LiveCodeBench |
DeepSeek-R1-Distill-Qwen-7B (官方报告) |
55.5 |
92.8 |
49.1 |
37.6 |
DeepSeek-R1-Distill-Qwen-7B (复现结果) |
53.2 |
93.7 |
50.4 |
36.5 |
玲珑蒸馏预览版第一阶段 |
54.2 |
93.5 |
47.5 |
32.9 |
玲珑线性预览版 |
55.0 |
93.8 |
46.5 |
29.8 |
推理速度
为评估生成吞吐量,我们基于vLLM在单张NVIDIA A100 GPU上部署了玲珑线性版与基于softmax注意力的玲珑标准版,进行两组实验:
-
长输入评估:在批大小为1、TP=1条件下,测量不同输入序列长度(从512到384k token)的首token响应时间(TTFT)。如上图所示,在384k输入长度时,玲珑线性版比softmax注意力模型快3.5倍。
-
长输出评估:固定输入序列长度为1,测量批大小64、TP=1条件下生成不同长度输出序列(从512到32k token)的端到端(E2E)生成时间。如下图所示,在32k输出长度时,玲珑线性版吞吐量达到softmax注意力版玲珑的2.2倍。
这些结果表明,我们的混合线性注意力机制显著提升了长上下文场景下的输入处理效率和生成吞吐量。
为更直观展示推理速度优势,我们在批大小64、输出长度16k条件下对比玲珑线性预览版与softmax注意力版玲珑(加速比60倍)。可见玲珑线性预览版的KV缓存使用量仅为玲珑标准的1/6,端到端时间较玲珑标准版减少27.24%。
更多细节将在技术报告[TBD]中披露
环境要求
快速开始
以下代码片段展示如何使用modelscope
调用对话模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "inclusionAI/Ring-lite-linear-preview"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "请简要介绍大语言模型。"
messages = [
{"role": "system", "content": "你是由inclusionAI创造的助手玲珑"},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=8192
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
部署指南
请参考Github仓库
训练数据
长文本推理微调数据集: 玲珑蒸馏预览版微调数据
开源协议
本代码仓库采用MIT许可协议。
引用文献
[待补充]