T

T5 Small Chinese Cluecorpussmall

由 uer 开发
基于UER-py框架预训练的中文T5小型模型,采用统一的文本到文本格式处理各类中文NLP任务
下载量 1,336
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是中文T5系列的小型版本,采用文本到文本的统一格式,适用于多种中文自然语言处理任务。模型在CLUECorpusSmall数据集上进行预训练,支持通过哨兵令牌进行文本生成和转换。

模型特点

统一文本到文本格式
采用T5的统一框架处理各类NLP任务,简化任务处理流程
哨兵令牌掩码
使用特殊格式的哨兵令牌(extraxxx)进行文本片段掩码,支持灵活的文本生成
两阶段预训练
先以短序列(128)预训练,再以长序列(512)微调,提升模型表现

模型能力

文本生成
文本转换
文本补全
文本摘要

使用案例

文本处理
文本补全
使用哨兵令牌进行文本缺失部分预测和补全
示例显示能正确预测缺失内容如'中国的首都是extra0京'生成'extra0 北'
文本改写
将输入文本转换为不同风格或格式的输出文本