J

Jamba V0.1

由 ai21labs 开发
Jamba是最先进的混合SSM-Transformer大语言模型,结合了Mamba架构与Transformer优势,支持256K上下文长度,在吞吐量和性能上超越同规模模型。
下载量 6,247
发布时间 : 3/28/2024
模型介绍
内容详情
替代品

模型简介

Jamba是首个生产级Mamba实现,作为预训练的混合专家(MoE)生成文本模型,激活参数120亿,总参数520亿。适用于文本生成、微调和研究开发。

模型特点

混合架构创新
结合Mamba的SSM架构与传统Transformer,实现吞吐量提升同时保持高性能
超长上下文支持
支持256K tokens的上下文长度,单块80GB GPU可处理140K tokens
高效专家混合
采用MoE设计,总参数520亿但仅激活120亿参数,平衡性能与效率
生产级实现
首个可用于实际生产的Mamba架构实现,为应用开发提供新可能

模型能力

长文本生成
知识问答
文本续写
指令微调基础

使用案例

研究与开发
架构创新研究
探索混合SSM-Transformer架构的性能边界
在多个基准测试中达到或超越同规模模型
企业应用
长文档处理
利用256K上下文长度处理超长文档
可保持长距离语义一致性