Ling-lite-1.5开源语言模型 - 精简架构却有卓越性能表现，免费可用！

首页

Ling Lite 1.5

由 inclusionAI 开发

灵曦是由InclusionAI开源的大规模混合专家语言模型，精简版拥有168亿总参数与27.5亿激活参数，展现出卓越性能表现。

大型语言模型

Transformers

开源协议:MIT #混合专家架构 #128K长文本处理 #多任务优化

下载量 46

发布时间 : 5/11/2025

模型简介

灵曦系列模型凭借灵活的扩展性结构，可适配不同规模的计算任务，广泛应用于从自然语言处理到复杂问题求解的各类场景。

模型特点

高效参数利用

采用混合专家架构，仅激活27.5亿参数即可实现168亿总参数的模型效果

长文本处理

支持128K超长上下文窗口，在长文本生成任务中表现优异

多领域性能

在数学、编程、知识问答等多个领域超越同类规模模型

模型能力

文本生成

复杂问题求解

长文本理解

代码生成

知识问答

使用案例

自然语言处理

智能助手

构建具备长对话记忆能力的智能助手

可处理128K长度的上下文信息

教育

数学解题

解答复杂数学问题

在数学评测中达到82.62%准确率

🚀 Ling大语言模型

Ling是由InclusionAI提供并开源的混合专家（MoE）大语言模型。它有两种不同规模的版本，分别为Ling-lite和Ling-plus，在行业内现有模型中表现出色，能广泛应用于自然语言处理等各类任务。

📚 项目介绍

Ling是由InclusionAI提供并开源的MoE大语言模型。我们推出了两种不同规模的版本，分别是Ling-lite和Ling-plus。Ling-lite拥有168亿参数，其中激活参数为27.5亿；而Ling-plus则拥有2900亿参数，激活参数达288亿。与行业内现有模型相比，这两款模型都展现出了令人瞩目的性能。

它们的架构使得模型易于进行伸缩调整，以适应不同的任务。因此，用户可以将这些模型应用于广泛的任务中，从自然语言处理到解决复杂问题。此外，Ling的开源特性促进了人工智能社区的协作与创新，推动了多样化的用例和改进。

随着越来越多的开发者和研究人员参与到这个平台中，我们有望看到快速的进步和改进，从而催生更加复杂的应用。这种协作方式不仅加速了开发进程，还确保了模型始终处于技术前沿，能够应对各个领域出现的新挑战。

📦 模型下载

你可以参考以下表格，根据自身需求选择合适的模型参数。如果你位于中国大陆地区，我们也在ModelScope.cn上提供了模型，以加快下载速度。

模型	总参数数量	激活参数数量	上下文长度	下载链接
Ling-lite-base-1.5	168亿	27.5亿	128K	🤗 HuggingFace
Ling-lite-1.5	168亿	27.5亿	128K	🤗 HuggingFace

📊 评估结果

基准测试	样本数量	Ling-lite-1.5	Ling-lite	Qwen3-4B-Instruct	Qwen3-8B-Instruct	Moonlight-16B-A3B-Instruct	LLaMA3.1-8B
MMLU(EM)	5	74.33	71.27	70.09	75.97	70.74	68.67
GPQA(Pass@1)	0	36.55	29.73	40.4	47.10	19.51	27.59
HumanEval(Pass@1)	0	87.27	84.38	81.94	85.29	72.94	67.23
LiveCodeBench 2408 - 2502 (Pass@1)	0	22.7	18.94	21.8	26.88	14.76	18.41
LCBench(pass@1)	0	60.37	46.57	48.61	60.03	28.39	23.13
Math(EM)	0	82.62	72.80	81.46	82.70	67.1	52.42
AIME2024(pass@1)	0	21.88	10.21	20.62	26.25	6.88	7.29
OlympiadBench(pass@1)	0	52.30	36.44	54.33	56.11	32.85	17.04
BBH(EM)	0	75.75	66.38	78.21	79.33	63.45	68.05
IFEval(Prompt Strict)	0	77.70	77.99	81.06	83.55	49.01	73.01
BFCL_live	0	72.15	67.93	65.35	69.83	47.14	49.98

上下文窗口

undefined

在“大海捞针”（NIAH）测试中的评估结果显示，Ling-Lite-1.5的长文本生成能力有所提升，在最长达128K的大多数上下文窗口长度下都表现良好。

💻 使用示例

基础用法

以下是一个使用transformers库调用聊天模型的代码示例：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "inclusionAI/Ling-lite-1.5"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "Give me a short introduction to large language models."
messages = [
    {"role": "system", "content": "You are Ling, an assistant created by inclusionAI"},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

⚙️ 部署说明

请参考Github获取详细的部署信息。

📄 许可证

本代码仓库遵循MIT许可证。

📚 引用信息

如果您觉得我们的工作有帮助，请引用以下文献：

@article{ling,
    title   = {Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs}, 
    author  = {Ling Team},
    journal = {arXiv preprint arXiv:2503.05139},
    year    = {2025}
}