P

Pile T5 Xxl

由 EleutherAI 开发
Pile-T5 XXL是基于T5x库在The Pile数据集上训练的编码器-解码器模型,采用类似原始T5模型的MLM目标,训练了200万步(约2万亿token)。
下载量 44
发布时间 : 1/16/2024
模型介绍
内容详情
替代品

模型简介

Pile-T5主要面向研究用途,其学习的英语内部表征可用于提取下游任务特征。除科研外,用户可根据Apache 2.0许可证对模型进行微调部署。

模型特点

大规模训练
在The Pile数据集上训练了200万步,约2万亿token,具有强大的语言理解能力。
高效架构
采用T5x的可扩展模型架构,借鉴了UMT5的实现,使用LlamaTokenizer。
研究导向
主要面向研究用途,适合提取下游任务特征和进行微调实验。

模型能力

文本生成
文本掩码预测
下游任务特征提取

使用案例

学术研究
语言模型研究
用于研究大规模语言模型的内部表征和行为特性。
下游任务微调
作为预训练模型,可针对特定任务进行微调。