Pile-T5基础版是基于T5x库在The Pile数据集上训练的编码器-解码器模型,通过MLM目标训练了200万步,约2万亿token。
下载量 50
发布时间 : 1/17/2024
模型简介
Pile-T5主要面向研究用途,其学习的英语内部表征可用于提取下游任务特征。兼容Transformers库,支持微调部署。
模型特点
大规模预训练
在825GB的The Pile数据集上训练,覆盖22类英语文本来源
T5x架构优化
采用T5x可扩展模型架构,借鉴UMT5实现并使用LlamaTokenizer
研究导向设计
专注于提取文本表征能力,适合下游任务微调而非直接部署
模型能力
文本生成
掩码语言建模
文本特征提取
使用案例
学术研究
语言模型研究
用于研究大规模预训练模型的行为和表征学习
下游任务基准测试
作为基础模型在SuperGLUE等基准上进行微调评估
性能指标见官方博客
工业应用
定制化NLP解决方案
基于Apache 2.0许可证进行领域适配微调
需自行评估风险与偏见
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文