B

Bertugues Base Portuguese Cased

由 ricardoz 开发
BERTugues是基于葡萄牙语文本训练的BERT模型,严格遵循原始BERT论文的预训练流程,通过100万步训练完成掩码语言建模和下一句预测任务。
下载量 92
发布时间 : 8/7/2023
模型介绍
内容详情
替代品

模型简介

BERTugues是针对葡萄牙语优化的BERT模型,通过改进分词器和训练数据质量,在多项葡萄牙语NLP任务中表现优异。

模型特点

优化的分词器
剔除葡萄牙语罕见字符,添加高频表情符号,显著降低文本被切分为多个token的比例
数据质量过滤
采用Gopher模型论文提出的启发式方法,对BrWAC语料进行质量过滤
性能优势
在多项葡萄牙语NLP任务中超越同类模型,部分任务表现优于参数量大三倍的模型

模型能力

掩码语言建模
句子相似度计算
下一句预测
文本特征提取
文本分类

使用案例

情感分析
葡萄牙语电影评论分类
使用BERTugues生成的句子表征配合随机森林分类器进行情感分析
在IMDB葡萄牙语版数据集上F1达84.0%,优于同类模型
法律文本处理
法律文本主题分类
判断两法律文本是否属于同一主题
在STJ数据集上F1达45.2%,优于Bertimbau-Large模型