B

Bert Base Thai

由 monsoon-nlp 开发
基于BERT-Base架构的泰语专用预训练模型,针对泰语分词特点优化,提供优于多语言BERT的性能表现
下载量 177
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该项目提供了专门针对泰语优化的BERT模型,解决了泰语因分词困难被排除在原始多语言BERT之外的问题。通过定制化的预处理和分词方法,显著提升了泰语文本处理效果。

模型特点

泰语专用分词
采用BPEmb预训练的25000词表SentencePiece模型,针对泰语无显式分隔符的特点优化
性能优势
在XNLI泰语任务上比多语言BERT模型提升2.8%准确率
完整预处理流程
提供从原始泰语文本到模型输入的完整预处理方案,包括特殊句子分割处理

模型能力

泰语文本表示
跨句子关系理解
下游任务微调

使用案例

文本分类
餐馆评论分类
对Wongnai平台的餐馆评论进行1-5星评级
在公开测试集达到0.56612准确率
跨语言理解
XNLI泰语任务
泰语自然语言推理任务
达到68.9%准确率,优于多语言BERT模型