R

Roberta Base Word Chinese Cluecorpussmall

由 uer 开发
基于CLUECorpusSmall语料预训练的中文分词版RoBERTa中型模型,采用分词处理提升序列处理效率
下载量 184
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是中文分词版本的RoBERTa预训练模型,相比字级别模型具有更优性能和更快速度,适用于中文自然语言处理任务

模型特点

分词优化
采用sentencepiece分词技术,相比字级别模型缩短序列长度,提升处理速度
多规模选择
提供从微型(Tiny)到基础(Base)五种不同规模的预训练模型
公开语料
基于公开的CLUECorpusSmall语料训练,结果可复现

模型能力

文本特征提取
掩码语言预测
中文文本理解

使用案例

文本补全
交通信息补全
补全类似'去北京的[MASK]几点发车'的交通查询语句
可准确预测'航班'、'高铁'等交通方式
文本特征提取
文档向量化
获取中文文本的深度语义表示
可用于下游分类、聚类等任务