Qwen3-4B-Base开源语言模型 - 支持多语言和长文本处理，实用之选！

首页

Qwen3 4B Base

由 unsloth 开发

Qwen3-4B-Base是通义千问系列最新一代40亿参数量的预训练语言模型，支持32k上下文长度和多语言处理。

大型语言模型

Transformers

开源协议:Apache-2.0 #多语言大模型 #32k长文本 #STEM强化

下载量 15.15k

发布时间 : 4/28/2025

模型简介

基于创新的三阶段预训练范式开发的大语言模型，专注于通用语言建模、STEM/编程/逻辑推理能力强化以及长文本理解。

模型特点

多语言覆盖

预训练数据覆盖119种语言的36万亿token，语言覆盖范围达前代的三倍

三阶段预训练

分阶段强化通用语言能力、STEM/编程/逻辑推理能力以及长文本理解能力

长上下文支持

支持32,768 tokens的超长上下文处理能力

训练技术创新

采用MoE负载均衡损失、全模型qk层归一化等技术提升训练稳定性

模型能力

多语言文本生成

长文本理解

编程代码生成

逻辑推理

STEM问题解答

使用案例

智能助手

多语言客服机器人

构建支持多语言的智能客服系统

可处理119种语言的用户查询

教育科技

编程学习助手

辅助编程学习者理解代码和解决问题

强化后的编程能力可提供更准确的代码解释

🚀 Qwen3-4B-Base

Qwen3-4B-Base 是 Qwen 系列最新一代大语言模型的基础版本，具备强大的语言处理能力。它在训练数据、模型架构和优化技术等方面进行了大量改进，能为用户提供更优质的语言交互体验。

✨ 主要特性

Qwen3 亮点

Qwen3 是 Qwen 系列的最新一代大语言模型，提供了一套全面的密集模型和专家混合（MoE）模型。基于在训练数据、模型架构和优化技术方面的大量改进，与之前发布的 Qwen2.5 相比，Qwen3 有以下关键提升：

扩展的高质量预训练语料库：Qwen3 在 119 种语言的 36 万亿个标记上进行预训练，语言覆盖范围是 Qwen2.5 的三倍，并且包含了更丰富的高质量数据，包括编码、STEM、推理、书籍、多语言和合成数据。
训练技术和模型架构：Qwen3 采用了一系列训练技术和架构改进，包括用于 MoE 模型的全局批量负载平衡损失和适用于所有模型的 qk 层归一化，从而提高了稳定性和整体性能。
三阶段预训练：第一阶段专注于广泛的语言建模和通用知识获取；第二阶段提高 STEM、编码和逻辑推理等推理技能；第三阶段通过将训练序列长度扩展到 32k 个标记来增强长上下文理解能力。
基于缩放定律的超参数调整：通过在三阶段预训练流程中进行全面的缩放定律研究，Qwen3 分别为密集模型和 MoE 模型系统地调整关键超参数，如学习率调度器和批量大小，从而在不同模型规模下实现更好的训练动态和最终性能。

模型概述

Qwen3 - 4B - Base 具有以下特点：

属性	详情
模型类型	因果语言模型
训练阶段	预训练
参数数量	40 亿
非嵌入参数数量	36 亿
层数	36
注意力头数量（GQA）	Q 为 32，KV 为 8
上下文长度	32768

更多详细信息，包括基准评估、硬件要求和推理性能，请参考我们的博客、GitHub 和文档。

📦 安装指南

Qwen3 的代码已集成到最新的 Hugging Face transformers 库中，建议您使用最新版本的 transformers。

如果使用 transformers<4.51.0，您将遇到以下错误：

KeyError: 'qwen3'

📚 详细文档

评估与性能

详细的评估结果请参考此 📑 博客。

引用

如果您觉得我们的工作有帮助，请随意引用我们的成果。

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}