A

ARWKV R1 1B5

由 RWKV-Red-Team 开发
ARWKV-R1-1B5 是基于RNN的70亿参数模型的早期预览版,通过从DeepSeek-R1-Distill-Qwen-1.5B进行三阶段知识蒸馏训练而成,上下文长度为2k。
下载量 164
发布时间 : 2/7/2025
模型介绍
内容详情
替代品

模型简介

ARWKV-R1-1B5 是一个基于RWKV-7时间混合与Transformer MLP架构的混合设计模型,展示了RWKV-7的高效循环机制和无自注意力的优势。

模型特点

高效循环机制
基于RWKV-7的高效循环机制,无自注意力,完全O(n)复杂度。
恒定显存占用
模型在推理过程中保持恒定显存占用,适合单GPU训练和推理。
混合架构设计
结合RWKV-7时间混合与Transformer MLP架构,优化了模型性能和效率。

模型能力

文本生成
多语言支持
高效推理

使用案例

通用问答
Trivia问答
作为世界级的trivia AI,提供准确、简洁的回答。
翻译
多语言翻译
支持中英文之间的翻译任务。
化学方程式
化学方程式生成
生成化学方程式。