R

Roberta Base 10M 1

由 nyu-mll 开发
基于不同规模数据集(1M-1B词元)预训练的RoBERTa系列模型,包含BASE和MED-SMALL两种规格
下载量 13
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

在较小规模数据集上预训练的RoBERTa变体,用于研究数据规模对语言模型性能的影响

模型特点

多规模预训练
提供1M到1B不同数据规模的预训练模型,便于研究数据规模效应
两种模型规格
包含标准BASE架构(125M)和精简MED-SMALL架构(45M)
严格筛选
每个规模从多次运行中筛选验证困惑度最低的3个模型发布

模型能力

文本表征学习
下游任务微调
语言模型预训练研究

使用案例

语言模型研究
数据规模影响研究
研究不同预训练数据规模对语言模型性能的影响
提供1M/10M/100M/1B四个数量级的对比模型
教育应用
轻量级语言模型教学
使用小规模模型进行NLP教学演示
MED-SMALL规格仅45M参数,适合教学环境