Qwen3 1.7B Base
Qwen3-1.7B-Base是通义系列最新一代大语言模型,提供了一系列密集模型和专家混合(MoE)模型,在训练数据、模型架构和优化技术等方面进行了大量改进。
下载量 7,444
发布时间 : 4/28/2025
模型简介
Qwen3-1.7B-Base是一个17亿参数的大语言模型,专注于语言建模和通用知识获取,支持长上下文理解和多语言处理。
模型特点
扩展的高质量预训练语料库
在119种语言的36万亿个标记上进行预训练,语言覆盖范围是前代的三倍,包含编码、STEM、推理、书籍等多领域高质量数据。
三阶段预训练
第一阶段专注语言建模,第二阶段提高推理能力,第三阶段扩展上下文长度至32k标记,增强长文本理解能力。
优化的训练技术
采用全局批量负载平衡损失和qk层归一化等技术,提高了模型稳定性和性能。
基于缩放定律的超参数调整
通过全面的缩放定律研究,系统调整学习率调度器和批量大小等关键参数,优化训练动态和最终性能。
模型能力
文本生成
多语言处理
长上下文理解
逻辑推理
STEM问题解答
代码生成
使用案例
自然语言处理
多语言文本生成
生成多种语言的连贯文本
支持119种语言的流畅生成
长文档理解
处理和理解长达32k标记的长文档
有效捕捉长距离依赖关系
教育
STEM问题解答
解答科学、技术、工程和数学相关问题
基于高质量STEM数据的准确回答
编程
代码生成与补全
根据自然语言描述生成代码或补全代码片段
基于大量编码数据的优质代码生成
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文