M

Mpt 30b

由 mosaicml 开发
MPT-30B是由MosaicML训练的开源大型语言模型,基于解码器架构的Transformer,在1万亿个英文文本和代码标记上预训练,支持8k上下文窗口和高效推理。
下载量 2,021
发布时间 : 6/20/2023
模型介绍
内容详情
替代品

模型简介

MPT-30B是Mosaic预训练Transformer系列模型,采用优化的Transformer架构实现高效训练和推理,具备强大的文本生成和编码能力,适用于多种自然语言处理任务。

模型特点

超长上下文支持
支持8k标记的上下文窗口,可通过ALiBi技术扩展至更长序列
高效推理
通过FlashAttention和FasterTransformer实现快速推理,单GPU即可部署
商业友好许可
采用Apache-2.0许可证,允许商业用途(不同于LLaMA等限制性许可)
海量训练数据
在1万亿标记的多样化数据上训练(含代码和学术文本)

模型能力

文本生成
代码生成
长文本处理
指令跟随

使用案例

内容生成
食谱生成
根据简单提示生成完整的烹饪食谱
示例中展示了生成纯素香蕉面包食谱的能力
对话系统
聊天机器人
基于微调版本MPT-30B-Chat构建对话系统
在Hugging Face提供演示空间
学术研究
论文摘要
处理长篇幅学术文本并生成摘要
得益于在Semantic Scholar ORC数据上的训练