B

Bamba 9B V1

由 ibm-ai-platform 开发
Bamba-9B 是基于 Mamba-2 架构的解码器专用语言模型,经过两阶段训练,擅长处理广泛的文本生成任务。
下载量 16.19k
发布时间 : 12/3/2024
模型介绍
内容详情
替代品

模型简介

Bamba-9B 是一款高效的语言模型,采用两阶段训练方法,第一阶段在 Dolma v1.7 数据集的 2 万亿 token 上训练,第二阶段额外训练了 2000 亿 token 以提升性能。

模型特点

两阶段训练
第一阶段在 2 万亿 token 上训练,第二阶段在 2000 亿高质量 token 上进一步优化。
高效架构
基于 Mamba-2 架构,具有 32 层和 4096 隐藏维度,支持 4096 上下文长度。
量化支持
提供 FP8 量化版本,显著减少内存占用,提升推理效率。

模型能力

文本生成
语言理解
上下文推理

使用案例

通用文本生成
内容创作
生成文章、故事或其他创意文本内容。
问答系统
回答用户提出的各种问题。
教育
学习辅助
帮助学生理解复杂概念或生成学习材料。