R

Retnet 410m XATL

由 NucleusAI 开发
基于RetNet架构与Transformer混合的线性计算成本推理模型,通过跨架构迁移学习实现
下载量 347
发布时间 : 3/14/2024
模型介绍
内容详情
替代品

模型简介

该模型采用RetNet架构实现,通过从pythia-410m模型迁移共享权重组件(如输入/输出嵌入层、MLP权重等),实现了线性计算成本推理。

模型特点

跨架构迁移学习
从预训练语言模型迁移共享权重组件,避免从头训练新的线性计算成本推理模型
线性计算成本
基于RetNet架构实现,相比传统Transformer具有更低的推理计算成本
权重共享
输入/输出嵌入层、MLP权重、层归一化模块及注意力输出投影矩阵均迁移自pythia-410m模型

模型能力

文本生成
因果语言建模

使用案例

文本生成
对话生成
可用于生成连贯的对话响应
内容创作
辅助生成文章、故事等长文本内容