wangchanberta-base-att-spm-uncased开源模型 - 用于泰语掩码语言建模与文本分类

首页

Wangchanberta Base Att Spm Uncased

由 airesearch 开发

基于78.5GB泰语文本预训练的RoBERTa BASE模型，适用于掩码语言建模及文本分类任务

大型语言模型

Transformers

其他#泰语文本分类 #社交媒体情感分析 #用户评论星级预测

下载量 34.38k

发布时间 : 3/2/2022

模型简介

该模型是基于RoBERTa架构的泰语预训练模型，主要用于掩码语言建模预测和文本分类任务。支持多种下游NLP应用。

模型特点

大规模泰语预训练

基于78.5GB泰语文本数据训练，具有优秀的泰语理解能力

多任务支持

支持掩码语言建模、文本分类和序列标记等多种NLP任务

RoBERTa优化架构

采用改进的RoBERTa架构，具有更强的上下文理解能力

模型能力

泰语文本理解

掩码语言预测

情感分析

文本分类

序列标记

使用案例

社交媒体分析

情感分析

分析泰语社交媒体帖子的情感倾向

可分类为积极/中立/消极/提问四类情感

评论分析

评论星级预测

预测用户评论的星级(1-5星)

在Wongnai评论数据集上表现良好

新闻分类

多标签主题分类

对泰语新闻进行12类主题分类

在Prachathai67k数据集上实现多标签分类

🚀 WangchanBERTa基础模型：`wangchanberta-base-att-spm-uncased`

WangchanBERTa基础模型是在各类泰语文本（78.5GB）上预训练的RoBERTa BASE模型，可用于掩码语言建模等任务，还提供了针对多分类/多标签文本分类和标记分类任务的微调模型。脚本和文档可在此仓库中找到。

🚀 快速开始

WangchanBERTa模型的入门笔记本可在这个Colab笔记本中找到。

✨ 主要特性

模型架构

预训练模型的架构基于RoBERTa [Liu et al., 2019]。

预期用途与限制

可以使用预训练模型进行掩码语言建模（即预测输入文本中的掩码标记）。此外，还提供了针对多分类/多标签文本分类和标记分类任务的微调模型：

多分类文本分类
- wisesight_sentiment：基于社交媒体帖子和推文的4类文本分类任务（positive、neutral、negative和question）。
- wongnai_reivews：用户评论评分分类任务（评分范围从1到5）。
- generated_reviews_enth：生成的用户评论评分分类任务（评分范围从1到5）。
多标签文本分类
- prachathai67k：基于prachathai.com新闻文章语料库的泰语主题分类，有12个标签。详情见此页面。
标记分类
- thainer：命名实体识别标记，有13种命名实体，详情见此页面。
- lst20：命名实体识别标记和词性标注，有10种命名实体和16种词性标签，详情见此页面。

📦 安装指南

原文档未提供安装步骤，此章节跳过。

💻 使用示例

原文档未提供代码示例，此章节跳过。

📚 详细文档

训练数据

wangchanberta-base-att-spm-uncased模型在各类泰语文本数据集上进行了预训练。未压缩文本的总大小为78.5GB。

预处理

文本按照以下规则进行预处理：

用实际字符替换HTML字符形式，例如用空格替换 ，用换行符替换<br /> [Howard and Ruder, 2018]。
移除空括号（()、{}和[]），这些括号有时是从维基百科等文本提取过程中产生的。
用空格替换换行符。
用单个空格替换多个连续空格。
移除超过3个重复字符，例如将ดีมากกก替换为ดีมาก [Howard and Ruder, 2018]。
使用[Phatthiyaphaibun et al., 2020]的基于字典的最大匹配分词器进行词级分词。
替换重复单词；这是在分词后进行的，与[Howard and Ruder, 2018]不同，因为泰语不像英语那样用空格分隔。
用<_>替换空格。SentencePiece分词器会将空格与其他标记组合。由于空格在泰语中起到标点符号的作用，如句子边界类似于英语中的句号，将其与其他标记组合会忽略词分词和句子分割等任务的重要特征。因此，选择用<_>显式标记空格。

关于词汇表，使用SentencePiece [Kudo, 2018]训练SentencePiece一元模型。分词器的词汇表大小为25,000个子词，在从训练集中采样的1500万个句子上进行训练。

每个序列的长度限制为最多416个子词标记。

关于掩码过程，对于每个序列，采样15%的标记并用<mask>标记替换。在这15%中，80%被替换为<mask>标记，10%保持不变，10%被替换为随机标记。

训练/验证/测试分割

经过预处理和去重后，有一个包含381,034,638个唯一的、主要是泰语句子的训练集，序列长度为5到300个单词（78.5GB）。训练集总共有16,957,775,412个单词（通过基于字典的最大匹配分词[Phatthiyaphaibun et al., 2020]），8,680,485,067个子词（通过SentencePiece分词器）和53,035,823,287个字符。

预训练

该模型在8个V100 GPU上训练了500,000步，批量大小为4,096（每个设备32个序列，16次累积步骤），序列长度为416个标记。使用的优化器是Adam，学习率为$3e - 4$，$\beta_1 = 0.9$，$\beta_2 = 0.999$，$\epsilon = 1e - 6$。学习率在前24,000步进行预热，然后线性衰减到零。选择验证损失最小的模型检查点作为最佳模型检查点。

截至2021年1月24日星期日，由于模型预训练尚未完成，发布了在360,000步检查点的模型。

BibTeX引用和引用信息

@misc{lowphansirikul2021wangchanberta,
      title={WangchanBERTa: Pretraining transformer-based Thai Language Models}, 
      author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
      year={2021},
      eprint={2101.09635},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}