wangchanberta-base-wiki-newmm开源模型 - 免费处理泰语文本任务必备！

首页

Wangchanberta Base Wiki Newmm

由 airesearch 开发

基于泰语维基百科预训练的RoBERTa BASE模型，适用于泰语文本处理任务

大型语言模型其他#泰语预训练 #维基百科语料 #RoBERTa架构

下载量 115

发布时间 : 3/2/2022

模型简介

该模型是基于泰语维基百科语料库预训练的RoBERTa BASE架构模型，主要用于泰语文本的掩码语言建模任务，也可用于文本分类和标记分类任务。

模型特点

泰语优化

专门针对泰语文本进行预训练和优化

多任务支持

支持多种下游任务，包括文本分类和命名实体识别

大规模预训练

基于泰语维基百科大规模语料库进行预训练

模型能力

掩码语言建模

文本分类

命名实体识别

词性标注

使用案例

情感分析

社交媒体情感分析

分析社交媒体帖子和推文的情感倾向

支持4种情感分类(积极、中性、消极、提问)

评论分析

用户评论星级预测

预测用户评论的星级评分(1-5星)

新闻分类

新闻主题分类

对新闻文章进行多标签主题分类

支持12种主题标签

信息提取

命名实体识别

从文本中识别命名实体

支持13种命名实体类型

🚀 WangchanBERTa基础模型：`wangchanberta-base-wiki-newmm`

WangchanBERTa基础模型是在泰国维基百科语料库上预训练的RoBERTa BASE模型，能够用于多种自然语言处理任务。脚本和文档可在此仓库中找到。

🚀 快速开始

WangchanBERTa模型的入门笔记本可在此Colab笔记本中找到。

✨ 主要特性

模型架构

预训练模型的架构基于RoBERTa [Liu et al., 2019]。

预期用途与限制

可以使用预训练模型进行掩码语言建模（即预测输入文本中的掩码标记）。此外，还提供了针对多类/多标签文本分类和标记分类任务的微调模型。

多类文本分类
- wisesight_sentiment：基于社交媒体帖子和推文的4类文本分类任务（positive、neutral、negative和question）。
- wongnai_reivews：用户评论评分分类任务（评分范围为1到5）。
- generated_reviews_enth：生成的用户评论评分分类任务（评分范围为1到5）。
多标签文本分类
- prachathai67k：基于prachathai.com新闻文章语料库的12标签泰国主题分类任务。详情见此页面。
标记分类
- thainer：命名实体识别标记，包含13种命名实体，详情见此页面。
- lst20：命名实体识别和词性标注，包含10种命名实体和16种词性标签，详情见此页面。

🔧 技术细节

训练数据

wangchanberta-base-wiki-newmm模型在泰国维基百科上进行预训练。具体来说，使用了2020年8月20日的维基百科转储文章（dumps.wikimedia.org/thwiki/20200820/），并排除了列表和表格。

预处理

文本按照以下规则进行预处理：

用空格替换不间断空格、零宽度不间断空格和软连字符。
移除第一段标题后出现的空括号。
用<_>替换空格。

词汇表

使用PyThaiNLP基于字典的分词器newmm的词级分词。词汇表中的词级标记总数为97,982。

句子采样

连续采样句子，使其长度最多为512个标记。对于一些超过512个标记边界的句子，使用额外的标记作为文档分隔符进行分割。这与[Liu et al., 2019]提出的方法相同（称为“FULL-SENTENCES”）。

掩码过程

对于每个序列，采样15%的标记并用标记替换。在这15%中，80%被替换为标记，10%保持不变，10%被替换为随机标记。

训练/验证/测试集划分

按顺序划分944,782个句子作为训练集，24,863个句子作为验证集，24,862个句子作为测试集。

预训练

模型在32个V100 GPU上训练31,250步，批量大小为8,192（每个设备16个序列，16个累积步骤），序列长度为512个标记。使用的优化器是Adam，学习率为$7e - 4$，$\beta_1 = 0.9$，$\beta_2 = 0.98$，$\epsilon = 1e - 6$。学习率在前1250步进行预热，然后线性衰减到零。选择验证损失最小的模型检查点作为最佳模型检查点。

BibTeX引用

@misc{lowphansirikul2021wangchanberta,
      title={WangchanBERTa: Pretraining transformer-based Thai Language Models}, 
      author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
      year={2021},
      eprint={2101.09635},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}