许可协议:apache-2.0
许可链接:https://huggingface.co/Qwen/Qwen3-14B-GGUF/blob/main/LICENSE
模型类型:文本生成
基础模型:Qwen/Qwen3-14B
Qwen3-14B-GGUF
Qwen3核心亮点
Qwen3是通义千问系列大语言模型的最新版本,提供全系列的稠密模型与混合专家(MoE)模型。基于大规模训练,Qwen3在推理能力、指令遵循、智能体功能和多语言支持方面实现重大突破,主要特性包括:
- 首创思维模式无缝切换:支持在思维模式(复杂逻辑推理、数学与编程)与非思维模式(高效通用对话)间自由转换,确保各类场景下的最优表现。
- 显著增强的推理能力:在数学、代码生成和常识逻辑推理任务中,思维模式下的表现超越前代QwQ模型,非思维模式超越Qwen2.5指令模型。
- 卓越的人类偏好对齐:在创意写作、角色扮演、多轮对话和指令遵循方面表现优异,提供更自然、生动且沉浸式的对话体验。
- 专业的智能体能力:支持思维与非思维模式下精准调用外部工具,在开源模型的复杂智能体任务中达到领先水平。
- 支持100+种语言与方言:具备强大的多语言指令理解与翻译能力。
模型概览
Qwen3-14B核心参数:
- 类型:因果语言模型
- 训练阶段:预训练与后训练
- 参数量:148亿
- 非嵌入参数量:132亿
- 层数:40
- 注意力头数(GQA):查询头40个,键值头8个
- 上下文长度:原生支持32,768 tokens,通过YaRN扩展至131,072 tokens。
- 量化版本:q4_K_M、q5_0、q5_K_M、q6_K、q8_0
更多技术细节(包括基准测试、硬件需求与推理性能)请参阅我们的博客、GitHub和文档。
快速开始
llama.cpp
参考llama.cpp使用文档获取完整指南。
建议克隆llama.cpp
并按官方指南安装。以下示例假设您在llama.cpp
仓库目录下运行命令:
./llama-cli -hf Qwen/Qwen3-14B-GGUF:Q8_0 --jinja --color -ngl 99 -fa -sm row --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0 --presence-penalty 1.5 -c 40960 -n 32768 --no-context-shift
ollama
参考ollama使用文档获取完整指南。
单命令启动模型:
ollama run hf.co/Qwen/Qwen3-14B-GGUF:Q8_0
思维模式切换
在用户提示或系统消息中添加/think
或/no_think
可实时切换思维模式。多轮对话中,模型将遵循最近一条指令。
示例对话:
> 你是谁 /no_think
<think>
</think>
我是通义千问,由阿里云研发的大语言模型。[...]
> "strawberries"中有几个字母'r'? /think
<think>
好的,让我们看看。用户询问单词"strawberries"中字母'r'出现的次数。[...]
</think>
该单词包含3个字母r。[...]
处理长文本
Qwen3原生支持32,768 tokens上下文窗口。若对话总长度远超此限制,建议使用RoPE缩放技术。我们已通过YaRN方法验证模型在131,072 tokens长度下的性能。
在llama.cpp
中启用YaRN:
./llama-cli ... -c 131072 --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768
[!注意]
当前主流开源框架均采用静态YaRN实现,缩放因子固定可能导致短文本性能下降。
建议仅在处理长文本时启用rope_scaling
配置,并根据实际需求调整factor
参数(如典型上下文长度为65,536 tokens时设为2.0)。
[!提示]
阿里云Model Studio端点默认支持动态YaRN,无需额外配置。
最佳实践
推荐配置方案:
-
采样参数:
- 思维模式(
enable_thinking=True
):Temperature=0.6
、TopP=0.95
、TopK=20
、MinP=0
、PresencePenalty=1.5
。禁止使用贪婪解码,否则可能导致性能下降与无限重复。
- 非思维模式(
enable_thinking=False
):建议Temperature=0.7
、TopP=0.8
、TopK=20
、MinP=0
、PresencePenalty=1.5
。
- 量化模型建议设置
presence_penalty=1.5
抑制重复输出,可调整范围为0-2,过高值可能导致语言混杂与轻微性能下降。
-
充足输出长度:
- 常规查询建议输出长度32,768 tokens。
- 数学/编程竞赛等复杂问题建议最大输出38,912 tokens,确保生成详尽解答。
-
标准化输出格式:
- 数学题:提示词包含"请逐步推理,并将最终答案用\boxed{}包裹"。
- 选择题:提示词添加JSON结构规范响应,如
"answer": "C"
。
-
历史对话去思维内容:多轮对话中,历史记录应仅保留最终输出(Jinja2模板已实现该逻辑,其他框架需开发者自行处理)。
引用
如果我们的工作对您有帮助,欢迎引用:
@misc{qwen3,
title = {Qwen3},
url = {https://qwenlm.github.io/blog/qwen3/},
author = {Qwen Team},
month = {April},
year = {2025}
}