R

Roberta Mini Word Chinese Cluecorpussmall

由 uer 开发
基于CLUECorpusSmall预训练的中文词级别RoBERTa中型模型,相比字符模型在多项任务中表现更优
下载量 44
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是中文词级别的RoBERTa预训练模型,采用词基分词方式,相比字符模型具有更快的处理速度和更好的性能表现。适用于多种中文自然语言处理任务。

模型特点

词基分词优势
采用词基而非字符分词,处理速度更快且实验显示性能更优
多尺寸选择
提供从微型到基础的5种不同尺寸模型,满足不同应用场景需求
公开训练数据
使用公开的CLUECorpusSmall语料库和标准分词工具,便于复现结果

模型能力

中文文本理解
掩码语言建模
文本特征提取

使用案例

文本理解
填空补全
预测被掩码的词,如'[MASK]的首都是北京'
能准确预测'中国'等合理答案
特征提取
文本表示
获取文本的向量表示用于下游任务