Q

Qwen3 1.7B Base

由 unsloth 开发
Qwen3-1.7B-Base是通义系列最新一代大语言模型,提供了一系列密集模型和专家混合(MoE)模型,在训练数据、模型架构和优化技术等方面进行了大量改进。
下载量 7,444
发布时间 : 4/28/2025

模型简介

Qwen3-1.7B-Base是一个17亿参数的大语言模型,专注于语言建模和通用知识获取,支持长上下文理解和多语言处理。

模型特点

扩展的高质量预训练语料库
在119种语言的36万亿个标记上进行预训练,语言覆盖范围是前代的三倍,包含编码、STEM、推理、书籍等多领域高质量数据。
三阶段预训练
第一阶段专注语言建模,第二阶段提高推理能力,第三阶段扩展上下文长度至32k标记,增强长文本理解能力。
优化的训练技术
采用全局批量负载平衡损失和qk层归一化等技术,提高了模型稳定性和性能。
基于缩放定律的超参数调整
通过全面的缩放定律研究,系统调整学习率调度器和批量大小等关键参数,优化训练动态和最终性能。

模型能力

文本生成
多语言处理
长上下文理解
逻辑推理
STEM问题解答
代码生成

使用案例

自然语言处理
多语言文本生成
生成多种语言的连贯文本
支持119种语言的流畅生成
长文档理解
处理和理解长达32k标记的长文档
有效捕捉长距离依赖关系
教育
STEM问题解答
解答科学、技术、工程和数学相关问题
基于高质量STEM数据的准确回答
编程
代码生成与补全
根据自然语言描述生成代码或补全代码片段
基于大量编码数据的优质代码生成
AIbase
智启未来,您的人工智能解决方案智库
简体中文