M

Miniplm Qwen 200M

由 MiniLLM 开发
基于Qwen架构的2亿参数模型,采用MiniPLM知识蒸馏框架从零开始预训练
下载量 203
发布时间 : 10/17/2024
模型介绍
内容详情
替代品

模型简介

MiniPLM-Qwen-200M是一个采用知识蒸馏技术训练的轻量级语言模型,以Qwen1.5-1.8B作为教师模型进行训练,具有高效的性能和良好的扩展性。

模型特点

知识蒸馏训练
采用MiniPLM知识蒸馏框架从Qwen1.5-1.8B教师模型学习,实现高效知识迁移
差异采样优化
使用差异采样优化的预训练语料库,提升训练效率和模型性能
计算效率高
在相同计算量下表现优于常规预训练方法,具有良好的扩展性

模型能力

文本生成
语言理解

使用案例

自然语言处理
文本生成应用
可用于生成连贯、有意义的文本内容
语言模型研究
作为轻量级语言模型的研究基准