H

Herbert Large Cased

由 allegro 开发
HerBERT是一个基于BERT架构的波兰语预训练语言模型,采用动态全词掩码和句子结构目标进行训练。
下载量 1,272
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

HerBERT是一个高效的波兰语预训练语言模型,基于BERT架构,适用于各种自然语言处理任务。

模型特点

动态全词掩码
采用动态全词掩码的掩码语言建模方法进行训练,提高了模型的语言理解能力。
句子结构目标
结合句子结构目标(SSO)进行训练,增强了模型对句子结构的理解。
大规模训练语料
在六个波兰语语料库上进行训练,覆盖了广泛的文本类型和领域。
高效分词器
使用字符级字节对编码(CharBPETokenizer)将文本转换为5万词元的子词单元,提高了处理效率。

模型能力

波兰语文本理解
波兰语文本生成
掩码语言建模

使用案例

自然语言处理
文本分类
用于波兰语文本的分类任务,如情感分析、主题分类等。
命名实体识别
识别波兰语文本中的命名实体,如人名、地名、组织名等。
机器翻译
作为波兰语机器翻译系统的组成部分,提高翻译质量。