R

Roberta Base 100M 3

由 nyu-mll 开发
在1M至1B词元规模数据集上预训练的RoBERTa变体,包含BASE和MED-SMALL两种规格,适用于资源有限场景下的自然语言处理任务
下载量 18
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

基于不同规模数据集(1M/10M/100M/1B词元)预训练的RoBERTa模型,通过调整模型规格和训练参数优化小数据场景表现

模型特点

小数据优化
专门针对1M-1B词元的小规模数据优化,相比原始RoBERTa更适合数据受限场景
规格可选
提供BASE(125M)和MED-SMALL(45M)两种参数规模,平衡性能与效率
严格验证
每个数据规模选取验证困惑度最低的3个模型发布,确保质量

模型能力

文本表征学习
下游任务微调
掩码词预测

使用案例

教育领域
小规模数据微调
在有限标注数据的教育文本分类任务中作为预训练基座
研究领域
预训练策略研究
研究不同数据规模对预训练模型性能的影响