Qwen3-4B-Base开源大语言模型 - 多语言对话支持32k上下文长度

首页

Qwen3 4B Base

由 Qwen 开发

Qwen3-4B-Base是通义千问系列最新一代40亿参数大语言模型，基于36万亿token的多语言数据预训练，支持32k上下文长度。

大型语言模型

Transformers

开源协议:Apache-2.0 #多语言支持 #长文本理解 #STEM推理

下载量 50.84k

发布时间 : 4/28/2025

模型简介

Qwen3-4B-Base是一个因果语言模型，专注于通用语言理解和生成任务，适用于文本生成、代码补全等多种场景。

模型特点

大规模多语言预训练

基于36万亿token的119种语言数据进行预训练，语言覆盖范围达前代的三倍

三阶段训练优化

采用通用语言建模→专项能力强化→长上下文训练的三阶段预训练范式

长上下文支持

支持32k tokens的超长上下文处理能力

高效注意力机制

采用分组查询注意力(GQA)架构，查询头32组/键值头8组配置

模型能力

文本生成

多语言理解

代码补全

逻辑推理

长文本处理

使用案例

自然语言处理

多语言文本生成

生成多种语言的连贯文本内容

支持119种语言的流畅生成

技术文档处理

处理STEM领域技术文档和代码

在代码和STEM领域数据上进行了专项优化

开发辅助

代码补全

辅助程序员进行代码编写和补全

预训练数据中提升了代码相关数据占比

🚀 Qwen3-4B-Base

Qwen3-4B-Base是Qwen系列最新一代大语言模型，提供了一系列密集模型和专家混合（MoE）模型。它在训练数据、模型架构和优化技术等方面进行了大量改进，相较于之前发布的Qwen2.5有显著提升。

🚀 快速开始

Qwen3的代码已集成到最新的Hugging Face transformers库中，建议使用最新版本的transformers。若使用transformers<4.51.0，会遇到如下错误：

KeyError: 'qwen3'

✨ 主要特性

Qwen3的显著提升

Qwen3是Qwen系列的最新一代大语言模型，提供了一套全面的密集模型和专家混合（MoE）模型。基于在训练数据、模型架构和优化技术方面的大量改进，Qwen3相较于之前发布的Qwen2.5有以下关键提升：

扩展的高质量预训练语料库：Qwen3在119种语言的36万亿个标记上进行预训练，语言覆盖范围是Qwen2.5的三倍，且包含了更丰富的高质量数据，如编码、STEM、推理、书籍、多语言和合成数据。
训练技术和模型架构：Qwen3采用了一系列训练技术和架构改进，包括用于MoE模型的全局批量负载平衡损失和适用于所有模型的qk层归一化，从而提高了稳定性和整体性能。
三阶段预训练：第一阶段专注于广泛的语言建模和通用知识获取，第二阶段提高推理能力，如STEM、编码和逻辑推理，第三阶段通过将训练序列长度扩展到32k个标记来增强长上下文理解能力。
基于缩放定律的超参数调整：通过在三阶段预训练流程中进行全面的缩放定律研究，Qwen3针对密集模型和MoE模型分别系统地调整关键超参数，如学习率调度器和批量大小，从而在不同模型规模下实现更好的训练动态和最终性能。

Qwen3-4B-Base的特性

类型：因果语言模型
训练阶段：预训练
参数数量：40亿
非嵌入参数数量：36亿
层数：36
注意力头数量（GQA）：Q为32，KV为8
上下文长度：32,768

更多详细信息，包括基准评估、硬件要求和推理性能，请参考我们的博客、GitHub和文档。

📚 详细文档

详细的评估结果请参考此博客。

引用

如果您觉得我们的工作有帮助，请引用以下内容：

@misc{qwen3technicalreport,
      title={Qwen3 Technical Report}, 
      author={Qwen Team},
      year={2025},
      eprint={2505.09388},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.09388}, 
}