roberta-base-10M-1开源模型 - 多规格支持不同规模数据集预训练

Roberta Base 10M 1

由 nyu-mll 开发

基于不同规模数据集(1M-1B词元)预训练的RoBERTa系列模型，包含BASE和MED-SMALL两种规格

下载量 13

发布时间 : 3/2/2022

模型简介

在较小规模数据集上预训练的RoBERTa变体，用于研究数据规模对语言模型性能的影响

多规模预训练

提供1M到1B不同数据规模的预训练模型，便于研究数据规模效应

两种模型规格

包含标准BASE架构(125M)和精简MED-SMALL架构(45M)

严格筛选

每个规模从多次运行中筛选验证困惑度最低的3个模型发布

文本表征学习

下游任务微调

语言模型预训练研究

语言模型研究

数据规模影响研究

研究不同预训练数据规模对语言模型性能的影响

提供1M/10M/100M/1B四个数量级的对比模型

教育应用

轻量级语言模型教学

使用小规模模型进行NLP教学演示

MED-SMALL规格仅45M参数，适合教学环境

模型名称	训练数据规模	模型规模	最大步数	批次大小	验证困惑度
roberta-base-1B-1	100亿	BASE	100K	512	3.93
roberta-base-1B-2	100亿	BASE	31K	1024	4.25
roberta-base-1B-3	100亿	BASE	31K	4096	3.84
roberta-base-100M-1	10亿	BASE	100K	512	4.99
roberta-base-100M-2	10亿	BASE	31K	1024	4.61
roberta-base-100M-3	10亿	BASE	31K	512	5.02
roberta-base-10M-1	1亿	BASE	10K	1024	11.31
roberta-base-10M-2	1亿	BASE	10K	512	10.78
roberta-base-10M-3	1亿	BASE	31K	512	11.58
roberta-med-small-1M-1	1000万	MED - SMALL	100K	512	153.38
roberta-med-small-1M-2	1000万	MED - SMALL	10K	512	134.18
roberta-med-small-1M-3	1000万	MED - SMALL	31K	512	139.39