R

Roberta Med Small 1M 1

由 nyu-mll 开发
基于1M tokens小规模数据预训练的RoBERTa模型,采用MED-SMALL架构,适用于文本理解任务。
下载量 23
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是基于RoBERTa架构的小规模预训练语言模型,专注于在有限数据量下的语言表示学习。

模型特点

小规模数据预训练
专门设计用于在1M-1B tokens的小规模数据集上进行有效预训练
多种规模选择
提供从1M到1B tokens不同训练规模的模型版本
优化架构
针对小规模数据调整的MED-SMALL架构(6层,512隐藏维度)

模型能力

文本表示学习
上下文理解
语言建模

使用案例

教育研究
小规模数据语言模型研究
用于研究有限数据条件下的语言模型表现
验证集困惑度134.18-153.38
资源受限环境
低资源NLP应用
适用于计算资源或训练数据有限的环境