J

Jamba V0.1 9B

由 TechxGenus 开发
Jamba是最先进的混合SSM-Transformer架构大语言模型,结合了注意力机制和Mamba架构的优势,支持256K上下文长度,适合在单张80GB GPU上进行推理。
下载量 22
发布时间 : 4/8/2024
模型介绍
内容详情
替代品

模型简介

Jamba是一个预训练的混合专家(MoE)生成文本模型,激活参数120亿,所有专家总参数520亿。该模型在同类尺寸模型中,大多数常见基准测试表现优于或持平最佳模型。

模型特点

混合架构
结合了Transformer的注意力机制和Mamba架构的优势,提升了模型吞吐量。
长上下文支持
支持高达256K的上下文长度,适合处理长文档和复杂任务。
高效推理
优化后的实现可在单张80GB GPU上处理高达140K令牌,适合实际部署。
混合专家(MoE)
采用混合专家架构,激活参数120亿,总参数520亿,平衡了性能和效率。

模型能力

文本生成
长上下文处理
高效推理

使用案例

文本生成
内容创作
生成高质量的文章、故事或其他文本内容。
代码生成
辅助开发人员生成代码片段或完成编程任务。
研究与开发
模型微调
作为基础模型,可通过PEFT库进行微调,适应特定任务。