R

Roberta Tiny Word Chinese Cluecorpussmall

由 uer 开发
基于CLUECorpusSmall预训练的中文分词版RoBERTa中型模型,采用8层512隐藏层架构,相比字符版模型具有更优性能和更快处理速度
下载量 17
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

中文分词版RoBERTa预训练语言模型,支持掩码预测和文本特征提取任务,适用于各类中文自然语言处理应用

模型特点

分词版优势
采用分词处理而非字符级别,显著缩短序列长度并提升处理速度,实验证明性能优于字符版模型
多规格选择
提供从Tiny(L2/H128)到Base(L12/H768)共5种规格,满足不同计算资源需求
开源训练
使用公开CLUECorpusSmall语料和sentencepiece分词工具,提供完整训练细节便于复现

模型能力

中文文本掩码预测
文本特征向量提取
下游任务微调

使用案例

文本补全
交通信息查询
补全交通时刻表查询语句
示例输入:'最近一趟去北京的[MASK]几点发车'
智能问答
事实型问答
回答常识性问题
示例输入:'[MASK]的首都是北京。'