Z

Zamba 7B V1 Phase1

由 Zyphra 开发
Zamba-7B-v1-phase1是状态空间模型Mamba与Transformer的混合架构,以Mamba为主干网络,每6个模块共享一个Transformer层,通过下一词预测进行训练。
下载量 22
发布时间 : 5/22/2024
模型介绍
内容详情
替代品

模型简介

该模型是纯预训练检查点,主要用于研究退火处理效果,采用Mistral v0.1的分词器,在开放网络数据集提供的1万亿文本和代码标记上进行了预训练。

模型特点

混合架构设计
结合Mamba主干网络与共享权重Transformer层,优化信息跨层保持能力
高效推理
得益于SSM架构,在推理效率和生成内存开销上大幅领先同类7B/8B模型
样本效率高
相比同等规模开源模型,使用更少训练标记量达到优异性能

模型能力

文本生成
代码补全
知识问答

使用案例

研究工具
架构对比研究
作为纯预训练检查点用于研究退火处理效果
提供基准对比数据
文本生成
开放域问答
回答历史、科技等领域问题
生成连贯的答案文本