muppet-roberta-base开源模型 - 基于RoBERTa架构，多任务表征与问答表现出色

首页

Muppet Roberta Base

由 facebook 开发

通过预微调实现的大规模多任务表征模型，基于RoBERTa架构，在GLUE和问答任务上表现优于原始roberta-base

大型语言模型

Transformers

英语开源协议:MIT #多任务预微调 #GLUE性能提升 #小数据集优化

下载量 425

发布时间 : 3/2/2022

模型简介

该模型是基于RoBERTa架构的大规模多任务预微调版本，通过掩码语言建模目标进行预训练，适用于自然语言处理任务的特征提取和微调

模型特点

大规模多任务预微调

通过预微调阶段在多任务上训练，提升了模型在下游任务的表现

优于原始RoBERTa-base

在GLUE和问答任务上表现优于原始roberta-base，特别是在小型数据集上提升显著

双向上下文理解

采用掩码语言建模目标，能够学习句子的双向表征

模型能力

文本特征提取

句子分类

问答系统

自然语言理解

使用案例

文本分类

情感分析

对文本进行正面/负面情感分类

在SST-2数据集上达到96.7%准确率

问答系统

阅读理解

基于给定文本回答问题

在SQuAD数据集上达到86.6%准确率

自然语言推理

文本蕴含判断

判断两个句子之间的逻辑关系

在MNLI数据集上达到88.1%准确率

🚀 Muppet：预微调的大规模多任务表示 - RoBERTa基础模型

Muppet是RoBERTa基础模型的大规模多任务预微调版本，它能在多种GLUE和问答任务中提升性能，尤其在小数据集上效果显著。该模型的详细信息可参考相关论文。

🚀 快速开始

本项目提供了一个经过预微调的RoBERTa基础模型，可用于多种自然语言处理任务。你可以在模型中心查找针对特定任务微调后的版本。

✨ 主要特性

多任务预微调：在多种GLUE和问答任务中提升了性能，尤其在小数据集上效果显著。
双向表示学习：通过掩码语言建模（MLM）目标学习句子的双向表示。
特征提取：学习英语语言的内部表示，可用于下游任务的特征提取。

📚 详细文档

模型描述

RoBERTa是一个基于自监督学习方式在大量英语语料库上预训练的Transformer模型。它仅在原始文本上进行预训练，无需人工标注，通过自动过程从这些文本中生成输入和标签。

具体来说，它以掩码语言建模（MLM）为目标进行预训练。对于一个句子，模型会随机掩码输入中15%的单词，然后将整个掩码后的句子输入模型，并预测被掩码的单词。这与传统的循环神经网络（RNN）不同，RNN通常逐个处理单词，也与像GPT这样的自回归模型不同，GPT会在内部掩码未来的标记。这种方式使模型能够学习句子的双向表示。

通过这种方式，模型学习到英语语言的内部表示，可用于提取对下游任务有用的特征。例如，如果你有一个标注好的句子数据集，可以使用BERT模型生成的特征作为输入来训练一个标准分类器。

预期用途和限制

你可以使用原始模型进行掩码语言建模，但它主要用于在下游任务上进行微调。你可以在模型中心查找针对你感兴趣的任务进行微调后的版本。

需要注意的是，该模型主要用于需要使用整个句子（可能经过掩码）来做决策的任务，如序列分类、标记分类或问答。对于文本生成等任务，你应该考虑像GPT2这样的模型。

评估结果

在下游任务上进行微调时，该模型取得了以下结果：

模型	MNLI	QQP	QNLI	SST - 2	CoLA	STS - B	MRPC	RTE	SQuAD
Roberta - base	87.6	91.9	92.8	94.8	63.6	91.2	90.2	78.7	82.6
MUPPET Roberta - base	88.1	91.9	93.3	96.7	-	-	91.7	87.8	86.6

BibTeX引用和引用信息

@article{DBLP:journals/corr/abs-2101-11038,
  author    = {Armen Aghajanyan and
               Anchit Gupta and
               Akshat Shrivastava and
               Xilun Chen and
               Luke Zettlemoyer and
               Sonal Gupta},
  title     = {Muppet: Massive Multi-task Representations with Pre-Finetuning},
  journal   = {CoRR},
  volume    = {abs/2101.11038},
  year      = {2021},
  url       = {https://arxiv.org/abs/2101.11038},
  archivePrefix = {arXiv},
  eprint    = {2101.11038},
  timestamp = {Sun, 31 Jan 2021 17:23:50 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2101-11038.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}