C

Cerebras GPT 111M

由 cerebras 开发
Cerebras-GPT系列中的111M参数模型,采用GPT-3风格架构,使用The Pile数据集训练,遵循Chinchilla扩展定律实现计算最优。
下载量 5,975
发布时间 : 3/17/2023
模型介绍
内容详情
替代品

模型简介

这是一个111M参数的因果语言模型,属于Cerebras-GPT系列,专为文本生成任务设计。模型采用标准的Transformer架构,在Andromeda AI超级计算机上训练。

模型特点

计算最优训练
遵循Chinchilla扩展定律,每模型参数训练20个token,实现计算效率最大化
硬件优化
在Cerebras CS-2晶圆级系统上训练,利用权重流技术实现高效扩展
开放架构
采用标准Transformer架构,便于研究和应用

模型能力

英语文本生成
因果语言建模
零样本学习
五样本学习

使用案例

文本生成
内容续写
根据给定文本片段生成连贯的后续内容
问答系统
基于上下文生成回答
教育研究
语言模型研究
用于研究LLM扩展规律和训练方法