A

ARWKV R1 7B

由 RWKV-Red-Team 开发
基于纯RNN的70亿参数模型,通过知识蒸馏训练,展示RWKV-7的高效循环机制和无自注意力架构。
下载量 113
发布时间 : 2/7/2025

模型简介

ARWKV-R1-7B是一个基于RWKV-7时间混合与Transformer MLP的混合架构模型,专注于文本生成任务,具有高效循环机制和恒定显存占用。

模型特点

高效循环机制
采用RWKV-7的高效循环机制,无自注意力,完全O(n)复杂度。
恒定显存占用
模型在推理过程中保持恒定显存占用,适合单GPU训练和推理。
知识蒸馏训练
通过从DeepSeek-R1-Distill-Qwen-1.5B进行三阶段知识蒸馏训练。
混合架构
结合RWKV-7时间混合与Transformer MLP的优势,提升模型性能。

模型能力

文本生成
问答系统
知识蒸馏

使用案例

问答系统
世界级问答AI
提供准确、简洁的回答,适用于各种问答场景。
在MMLU基准测试中达到67.25分。
数学推理
数学问题解答
能够解答基础的数学问题,适用于教育场景。
在GSM8K基准测试中达到56.06分。
AIbase
智启未来,您的人工智能解决方案智库
简体中文