Qwen3-14B-Base开源大语言模型 - 免费部署支持119种语言交流

首页

Qwen3 14B Base Unsloth Bnb 4bit

由 unsloth 开发

Qwen3-14B-Base是通义千问系列最新一代大语言模型，提供148亿参数的稠密模型，支持32k上下文长度，覆盖119种语言。

大型语言模型

Transformers

开源协议:Apache-2.0 #多语言大模型 #长上下文理解 #STEM推理优化

下载量 2,120

发布时间 : 4/28/2025

模型简介

Qwen3-14B-Base是一个预训练因果语言模型，专注于通用语言建模、STEM/编程/逻辑推理能力以及长文本理解。

模型特点

优质预训练语料库

训练数据覆盖119种语言的36万亿token，语言覆盖率达Qwen2.5的三倍，并显著提升编程、STEM、推理、书籍、多语言及合成数据的高质量内容占比。

创新训练架构技术

采用包括MoE模型全局批负载均衡损失函数、全模型qk层归一化在内的一系列技术创新，显著提升训练稳定性与综合性能。

三阶段预训练体系

第一阶段专注通用语言建模，第二阶段强化STEM/编程/逻辑推理能力，第三阶段通过32k超长上下文训练增强长文本理解。

缩放定律指导的超参优化

基于三阶段预训练管线的系统化缩放研究，分别针对稠密模型与MoE模型优化学习率调度器、批大小等关键超参，实现不同规模模型的最佳训练动态。

模型能力

文本生成

语言理解

编程能力

逻辑推理

长文本处理

使用案例

编程辅助

代码生成

根据自然语言描述生成代码片段

代码补全

根据上下文自动补全代码

内容创作

文章写作

根据主题生成连贯的文章

多语言翻译

在支持的语言之间进行翻译

教育

STEM问题解答

解答科学、技术、工程和数学相关问题

🚀 Qwen3-14B-Base

Qwen3-14B-Base是Qwen系列最新一代大语言模型，提供了一系列密集模型和专家混合（MoE）模型。它在训练数据、模型架构和优化技术等方面取得了显著进展，相较于之前发布的Qwen2.5有诸多关键改进。

🚀 快速开始

Qwen3的代码已集成到最新的Hugging Face transformers库中，建议使用最新版本的transformers。

若使用transformers<4.51.0，会遇到如下错误：

KeyError: 'qwen3'

✨ 主要特性

Qwen3亮点

Qwen3是Qwen系列的最新一代大语言模型，提供了一套全面的密集模型和专家混合（MoE）模型。基于在训练数据、模型架构和优化技术方面的广泛改进，Qwen3相较于之前发布的Qwen2.5有以下关键改进：

扩展的高质量预训练语料库：Qwen3在119种语言的36万亿个标记上进行预训练，语言覆盖范围是Qwen2.5的三倍，并且包含了更丰富的高质量数据，包括编码、STEM、推理、书籍、多语言和合成数据。
训练技术和模型架构：Qwen3采用了一系列训练技术和架构改进，包括针对MoE模型的全局批量负载平衡损失和适用于所有模型的qk层归一化，从而提高了稳定性和整体性能。
三阶段预训练：第一阶段专注于广泛的语言建模和通用知识获取；第二阶段提高推理技能，如STEM、编码和逻辑推理；第三阶段通过将训练序列长度扩展到32k标记来增强长上下文理解能力。
基于缩放定律的超参数调整：通过对三阶段预训练流程进行全面的缩放定律研究，Qwen3分别针对密集模型和MoE模型系统地调整关键超参数，如学习率调度器和批量大小，从而在不同模型规模下实现更好的训练动态和最终性能。

模型概述

Qwen3-14B-Base 具有以下特点：

属性	详情
模型类型	因果语言模型
训练阶段	预训练
参数数量	148亿
参数数量（非嵌入）	132亿
层数	40
注意力头数量（GQA）	Q为40，KV为8
上下文长度	32,768

更多详细信息，包括基准评估、硬件要求和推理性能，请参考我们的博客、GitHub和文档。

🔧 技术细节

评估与性能

详细的评估结果请参考此📑 博客。

引用

如果您觉得我们的工作有帮助，请引用我们的成果。

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}