BETO（bert-base-spanish-wwm-cased）开源模型 - 支持多种西班牙语NLP任务

Bert Base Spanish Wwm Cased

由 dccuchile 开发

BETO是基于大型西班牙语语料库训练的BERT模型，提供区分大小写和未区分大小写版本，适用于多种西班牙语NLP任务。

下载量 61.43k

发布时间 : 3/2/2022

模型简介

BETO是专门针对西班牙语优化的BERT模型，采用全词掩码技术训练，在词性标注、命名实体识别等任务上表现优异。

全词掩码训练

采用Whole Word Masking技术，提升模型对西班牙语的理解能力

双版本支持

提供区分大小写和未区分大小写两种版本，适应不同应用场景

大规模训练

基于31K BPE子词词汇表，训练200万步

多框架支持

提供TensorFlow和PyTorch两种框架的预训练权重

西班牙语文本理解

词性标注

命名实体识别

文档分类

文本复述检测

跨语言推理

自然语言处理

西班牙语文档分类

对西班牙语新闻、文章等进行自动分类

在MLDoc数据集上达到96.12%准确率

西班牙语命名实体识别

识别西班牙语文本中的人名、地名等实体

在CoNLL-2002数据集上达到88.43% F1分数

跨语言应用

跨语言推理

处理西班牙语与其他语言间的推理任务

在XNLI数据集上达到82.01%准确率

模型版本	Tensorflow权重	Pytorch权重	词汇表和配置文件
BETO无大小写区分	tensorflow_weights	pytorch_weights	vocab, config
BETO有大小写区分	tensorflow_weights	pytorch_weights	vocab, config

任务	BETO有大小写区分	BETO无大小写区分	最佳多语言BERT	其他结果
词性标注（POS）	98.97	98.44	97.10 [2]	98.91 [6], 96.71 [3]
命名实体识别（NER-C）	88.43	82.67	87.38 [2]	87.18 [3]
MLDoc	95.60	96.12	95.70 [2]	88.75 [4]
PAWS-X	89.05	89.55	90.70 [8]
XNLI	82.01	80.15	78.50 [2]	80.80 [5], 77.80 [1], 73.15 [4]