G

Gpt J 6b

由 EleutherAI 开发
GPT-J 6B是基于Mesh Transformer JAX框架训练的60亿参数自回归语言模型,采用与GPT-2/3相同的分词器。
下载量 297.31k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

GPT-J 6B是一个大型Transformer语言模型,擅长根据提示生成连贯文本,主要用于文本生成任务。

模型特点

旋转位置嵌入(RoPE)
采用旋转位置嵌入技术,增强了模型对长序列位置信息的处理能力
大规模训练
在TPU v3-256 pod上训练了4020亿标记,共383,500步
高性能
在多项基准测试中表现优异,接近GPT-3 6.7B版本性能

模型能力

文本生成
语言建模
文本补全

使用案例

文本生成
创意写作
生成故事、诗歌等创意文本内容
可生成连贯的英语文本段落
代码补全
辅助程序员完成代码片段
可生成基本正确的编程代码
研究用途
语言模型研究
用于研究大规模语言模型的行为和特性