开源 BabyBERTa-3 模型 - 助力语言习得研究，基于儿童英语语料训练

首页

Babyberta 3

由 phueb 开发

BabyBERTa 是基于 RoBERTa 的轻量级版本，专为语言习得研究设计，训练数据为 500 万单词的美国英语儿童导向输入语料。

大型语言模型

Transformers

英语开源协议:MIT #儿童语言习得 #轻量级RoBERTa #语法知识评估

下载量 22

发布时间 : 3/2/2022

模型简介

BabyBERTa 是一个轻量级的语言模型，基于 RoBERTa 架构，专为研究儿童语言习得而开发。它能够在单台配备单个 GPU 的桌面电脑上运行，无需高性能计算基础设施。

模型特点

轻量级设计

模型专为在单台配备单个 GPU 的桌面电脑上运行而设计，无需高性能计算基础设施。

儿童导向输入

训练数据为 500 万单词的美国英语儿童导向输入语料，适合语言习得研究。

语法知识学习

模型专为从儿童导向输入中学习语法知识而开发，通过 Zorro 测试套件进行评估。

训练优化

在训练过程中从不预测未掩码标记（unmask_prob 参数设置为零）。

模型能力

语言建模

语法知识学习

儿童语言习得研究

使用案例

语言习得研究

儿童语言发展研究

使用 BabyBERTa 分析儿童导向输入中的语法知识学习过程。

在 Zorro 测试套件上达到 80.3 的整体准确率。

🚀 BabyBERTA

BabyBERTA是一个轻量级的语言模型，基于500万个美式英语儿童导向输入词汇训练而成。它专为语言习得研究设计，可在配备单GPU的普通桌面设备上运行，无需高性能计算基础设施。

🚀 快速开始

加载分词器

BabyBERTA在训练时使用了 add_prefix_space=True 参数，因此使用默认的分词器设置无法正常工作。例如，要加载BabyBERTa - 1的分词器，可以按以下方式加载：

tokenizer = RobertaTokenizerFast.from_pretrained("phueb/BabyBERTa-1",
                                                 add_prefix_space=True)

超参数

具体细节请参考论文。所有提供的模型均以16的批量大小训练了400K步。重要的是，BabyBERTa在训练期间从不预测未掩码的标记，即 unmask_prob 设置为零。

性能

BabyBerta旨在从儿童导向输入中学习语法知识。其语法知识使用 Zorro 测试套件进行评估。最佳模型的整体准确率达到80.3，与RoBERTa - base相当，后者在Zorro的最新版本（截至2021年10月）上的整体准确率为82.6。这两个值与 CoNLL 2021论文中报告的值略有不同，原因如下：

RoBERTa - base的性能略高，因为作者之前在评估前将Zorro中的所有单词转换为小写。专有名词的小写处理对RoBERTa - base不利，因为RoBERTa - base可能是在主要为标题大小写的专有名词上进行训练的。相比之下，由于BabyBERTa不区分大小写，其性能不受此变化的影响。
Zorro的最新版本不再包含诸如 “Spanish” 这样既可以是名词又可以是形容词的歧义内容词，这导致BabyBERTa的性能略有下降。

Zorro上的整体准确率

模型名称	整体评分准确率	MLM评分准确率
[BabyBERTa - 1][link - BabyBERTa - 1]	80.3	79.9
[BabyBERTa - 2][link - BabyBERTa - 2]	78.6	78.2
[BabyBERTa - 3][link - BabyBERTa - 3]	74.5	78.1

额外信息

该模型由 Philip Huebner 训练，他目前就职于 UIUC语言与学习实验室。更多信息请见此处。

[link - BabyBERTa - 1]: https://huggingface.co/phueb/BabyBERTa - 1 [link - BabyBERTa - 2]: https://huggingface.co/phueb/BabyBERTa - 2 [link - BabyBERTa - 3]: https://huggingface.co/phueb/BabyBERTa - 3