Pile-T5 XXL是基于T5x库在The Pile数据集上训练的编码器-解码器模型,采用类似原始T5模型的MLM目标,训练了200万步(约2万亿token)。
下载量 44
发布时间 : 1/16/2024
模型简介
Pile-T5主要面向研究用途,其学习的英语内部表征可用于提取下游任务特征。除科研外,用户可根据Apache 2.0许可证对模型进行微调部署。
模型特点
大规模训练
在The Pile数据集上训练了200万步,约2万亿token,具有强大的语言理解能力。
高效架构
采用T5x的可扩展模型架构,借鉴了UMT5的实现,使用LlamaTokenizer。
研究导向
主要面向研究用途,适合提取下游任务特征和进行微调实验。
模型能力
文本生成
文本掩码预测
下游任务特征提取
使用案例
学术研究
语言模型研究
用于研究大规模语言模型的内部表征和行为特性。
下游任务微调
作为预训练模型,可针对特定任务进行微调。
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文