roberta-base-100M-1开源模型 - 助力英语文本处理实用之选！

Roberta Base 100M 1

由 nyu-mll 开发

基于1B词元规模预训练的RoBERTa基础模型，验证困惑度为3.93，适用于英语文本处理任务。

下载量 63

发布时间 : 3/2/2022

模型简介

RoBERTa是一种基于Transformer架构的预训练语言模型，通过优化BERT的训练过程实现更好的性能。该模型在1B词元规模的数据集上预训练，适用于各种自然语言处理任务。

小规模数据预训练

针对1B及以下词元规模的数据集进行了优化预训练，适合资源有限的应用场景

多批次大小验证

提供512/1024/4096等多种批次大小的训练版本，适应不同硬件条件

严格筛选

从多次运行中筛选验证困惑度最低的模型发布，确保质量

文本理解

文本生成

语义分析

语言建模

文本分类

情感分析

分析文本的情感倾向

问答系统

阅读理解

基于给定文本回答问题

模型名称	训练数据规模	模型大小	最大步数	批量大小	验证困惑度
roberta-base-1B-1	10亿	BASE	100K	512	3.93
roberta-base-1B-2	10亿	BASE	31K	1024	4.25
roberta-base-1B-3	10亿	BASE	31K	4096	3.84
roberta-base-100M-1	1亿	BASE	100K	512	4.99
roberta-base-100M-2	1亿	BASE	31K	1024	4.61
roberta-base-100M-3	1亿	BASE	31K	512	5.02
roberta-base-10M-1	1000万	BASE	10K	1024	11.31
roberta-base-10M-2	1000万	BASE	10K	512	10.78
roberta-base-10M-3	1000万	BASE	31K	512	11.58
roberta-med-small-1M-1	100万	MED - SMALL	100K	512	153.38
roberta-med-small-1M-2	100万	MED - SMALL	10K	512	134.18
roberta-med-small-1M-3	100万	MED - SMALL	31K	512	139.39