P

Pile T5 Base

由 EleutherAI 开发
Pile-T5基础版是基于T5x库在The Pile数据集上训练的编码器-解码器模型,通过MLM目标训练了200万步,约2万亿token。
下载量 50
发布时间 : 1/17/2024
模型介绍
内容详情
替代品

模型简介

Pile-T5主要面向研究用途,其学习的英语内部表征可用于提取下游任务特征。兼容Transformers库,支持微调部署。

模型特点

大规模预训练
在825GB的The Pile数据集上训练,覆盖22类英语文本来源
T5x架构优化
采用T5x可扩展模型架构,借鉴UMT5实现并使用LlamaTokenizer
研究导向设计
专注于提取文本表征能力,适合下游任务微调而非直接部署

模型能力

文本生成
掩码语言建模
文本特征提取

使用案例

学术研究
语言模型研究
用于研究大规模预训练模型的行为和表征学习
下游任务基准测试
作为基础模型在SuperGLUE等基准上进行微调评估
性能指标见官方博客
工业应用
定制化NLP解决方案
基于Apache 2.0许可证进行领域适配微调
需自行评估风险与偏见