license: mit
pipeline_tag: text-generation
library_name: transformers
灵曦模型
论文链接

🤗 Hugging Face主页
模型介绍
灵曦(Ling)是由InclusionAI提供并开源的大规模混合专家语言模型。我们推出两种参数量级版本:灵曦精简版(Ling-lite)与灵曦增强版(Ling-plus)。其中灵曦精简版拥有168亿总参数与27.5亿激活参数,灵曦增强版则具备2900亿总参数与288亿激活参数。两个版本相较业界现有模型均展现出卓越性能表现。
该系列模型凭借灵活的扩展性结构,可轻松适配不同规模的计算任务,用户可将其广泛应用于从自然语言处理到复杂问题求解的各类场景。模型的开源特性更有力推动了AI社区协作创新,催生多样化的应用场景与功能优化。
随着开发者与研究人员的持续参与,我们预期将实现快速迭代升级,孕育更精密的AI应用方案。这种协作开发模式不仅能加速技术进步,更能确保模型持续保持技术领先性,应对各领域新兴挑战。
模型下载
您可通过下表获取适配不同使用场景的模型参数配置。中国大陆用户可通过ModelScope.cn平台下载以提升传输效率。
性能评估
评测基准 |
样本数 |
Ling-lite-1.5 |
Ling-lite |
Qwen3-4B-Instruct |
Qwen3-8B-Instruct |
Moonlight-16B-A3B-Instruct |
LLaMA3.1-8B |
MMLU(精确匹配) |
5 |
74.33 |
71.27 |
70.09 |
75.97 |
70.74 |
68.67 |
GPQA(通过率@1) |
0 |
36.55 |
29.73 |
40.4 |
47.10 |
19.51 |
27.59 |
HumanEval(通过率@1) |
0 |
87.27 |
84.38 |
81.94 |
85.29 |
72.94 |
67.23 |
LiveCodeBench 2408-2502 (通过率@1) |
0 |
22.7 |
18.94 |
21.8 |
26.88 |
14.76 |
18.41 |
LCBench(通过率@1) |
0 |
60.37 |
46.57 |
48.61 |
60.03 |
28.39 |
23.13 |
数学(精确匹配) |
0 |
82.62 |
72.80 |
81.46 |
82.70 |
67.1 |
52.42 |
AIME2024(通过率@1) |
0 |
21.88 |
10.21 |
20.62 |
26.25 |
6.88 |
7.29 |
OlympiadBench(通过率@1) |
0 |
52.30 |
36.44 |
54.33 |
56.11 |
32.85 |
17.04 |
BBH(精确匹配) |
0 |
75.75 |
66.38 |
78.21 |
79.33 |
63.45 |
68.05 |
IFEval(严格提示) |
0 |
77.70 |
77.99 |
81.06 |
83.55 |
49.01 |
73.01 |
BFCL实时测试 |
0 |
72.15 |
67.93 |
65.35 |
69.83 |
47.14 |
49.98 |
上下文窗口测试

"大海捞针"(NIAH)测试结果显示,Ling-Lite-1.5具备显著提升的长文本生成能力,在128K上下文窗口范围内均保持优异表现。
快速开始
🤗 Hugging Face Transformers
以下代码示例展示如何使用transformers
库调用对话模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "inclusionAI/Ling-lite-1.5"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "请简要介绍大语言模型。"
messages = [
{"role": "system", "content": "你是由inclusionAI创建的智能助手灵曦"},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
部署指南
详见GitHub仓库
许可协议
本代码仓库采用MIT许可证。
引用声明
如认为我们的工作对您有所帮助,欢迎引用:
@article{ling,
title = {Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs},
author = {Ling Team},
journal = {arXiv preprint arXiv:2503.05139},
year = {2025}
}