Q

Qwen3 4B Base

由 Qwen 开发
Qwen3-4B-Base是通义千问系列最新一代40亿参数大语言模型,基于36万亿token的多语言数据预训练,支持32k上下文长度。
下载量 50.84k
发布时间 : 4/28/2025
模型介绍
内容详情
替代品

模型简介

Qwen3-4B-Base是一个因果语言模型,专注于通用语言理解和生成任务,适用于文本生成、代码补全等多种场景。

模型特点

大规模多语言预训练
基于36万亿token的119种语言数据进行预训练,语言覆盖范围达前代的三倍
三阶段训练优化
采用通用语言建模→专项能力强化→长上下文训练的三阶段预训练范式
长上下文支持
支持32k tokens的超长上下文处理能力
高效注意力机制
采用分组查询注意力(GQA)架构,查询头32组/键值头8组配置

模型能力

文本生成
多语言理解
代码补全
逻辑推理
长文本处理

使用案例

自然语言处理
多语言文本生成
生成多种语言的连贯文本内容
支持119种语言的流畅生成
技术文档处理
处理STEM领域技术文档和代码
在代码和STEM领域数据上进行了专项优化
开发辅助
代码补全
辅助程序员进行代码编写和补全
预训练数据中提升了代码相关数据占比