M

Mamba 7b Rw

由 TRI-ML 开发
Mamba-7B 是一个基于 Mamba 架构的 70 亿参数模型,在 RefinedWeb 数据集上进行了多轮训练(1.2 万亿标记)。Mamba 是一种状态空间模型,不使用自注意力机制,在多种自然语言基准测试中表现出色。
下载量 188
发布时间 : 4/8/2024
模型介绍
内容详情
替代品

模型简介

Mamba-7B 是一个自回归语言模型,基于 Mamba 架构,专为文本生成任务设计。它在 1.2 万亿标记的 RefinedWeb 数据集上训练,支持英语语言。

模型特点

基于 Mamba 架构
Mamba 是一种状态空间模型,不使用自注意力机制,具有线性时间复杂度和高效推理能力。
大规模训练数据
在 1.2 万亿标记的 RefinedWeb 数据集上训练,覆盖广泛的自然语言任务。
高效推理
由于 Mamba 架构的特性,模型在推理时具有较高的效率和较低的计算成本。

模型能力

文本生成
自然语言理解
问答系统

使用案例

自然语言处理
文本生成
生成连贯且上下文相关的文本,适用于内容创作、对话系统等。
生成的文本具有较高的连贯性和相关性。
问答系统
回答用户提出的问题,适用于客服、教育等领域。
在 MMLU 数据集上准确率为 33.3。