longformer-base-4096-bne-es开源西班牙语模型 - 处理长文本，支持问答与分类

首页

Longformer Base 4096 Bne Es

由 PlanTL-GOB-ES 开发

基于Longformer架构的西班牙语掩码语言模型，能够处理长文本输入，适用于问答、文本分类等任务

大型语言模型

Transformers

西班牙语开源协议:Apache-2.0 #西班牙语长文本处理 #滑动窗口注意力机制 #文档级语言建模

下载量 52.76k

发布时间 : 11/2/2022

模型简介

该模型基于RoBERTa架构改进，专门针对西班牙语长文本处理优化，支持4096词元的上下文长度，适用于多种自然语言处理任务

模型特点

长文本处理能力

支持4096词元的上下文长度，无需额外聚合策略即可处理长文档

改进的注意力机制

采用滑动窗口注意力与全局注意力相结合的方式，平衡计算效率与上下文理解

西班牙语优化

基于西班牙国家图书馆大规模语料训练，专门针对西班牙语特性优化

模型能力

掩码语言建模

文本分类

命名实体识别

问答系统

语义相似度计算

使用案例

文本分析

法律文档分析

分析西班牙语法律文档中的关键信息

新闻分类

对西班牙语新闻文章进行分类

在MLDoc数据集上F1得分0.9608

信息提取

命名实体识别

从西班牙语文档中提取人名、地名等实体

在CoNLL-NERC数据集上F1得分0.8757

🚀 基于西班牙国家图书馆（BNE）数据训练的Longformer基础模型

本模型是基于西班牙国家图书馆的数据训练的Longformer基础模型，能够处理更长的上下文输入，为西班牙语的语言处理任务提供了强大的支持。

🚀 快速开始

模型使用示例

from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer, FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer.from_pretrained('PlanTL-GOB-ES/longformer-base-4096-bne-es')
model = AutoModelForMaskedLM.from_pretrained('PlanTL-GOB-ES/longformer-base-4096-bne-es')
model.eval()
pipeline = FillMaskPipeline(model, tokenizer_hf)
text = f"Hay base legal dentro del marco <mask> actual."
res_hf = pipeline(text)
pprint([r['token_str'] for r in res_hf])

✨ 主要特性

处理长上下文：使用Longformer架构，结合滑动窗口（局部）注意力和全局注意力，无需额外的聚合策略即可处理更大的上下文输入。
可微调性：可在问答、文本分类或命名实体识别等非生成性下游任务上进行微调。

📚 详细文档

模型描述

longformer-base-4096-bne-es 是西班牙语 roberta-base-bne 掩码语言模型的 Longformer 版本。这些模型的使用使我们能够处理更大的上下文作为输入，而无需额外的聚合策略。该模型从 roberta-base-bne 检查点开始，并在来自西班牙国家图书馆的长文档上进行了MLM预训练。

Longformer模型使用了滑动窗口（局部）注意力和全局注意力的组合。全局注意力可根据任务进行用户配置，以使模型学习特定任务的表示。有关如何设置全局注意力的更多详细信息，请参考原始论文。

有关语料库、预训练和评估的更多详细信息，请查看官方仓库。

预期用途和限制

longformer-base-4096-bne-es 模型仅适用于掩码语言建模以执行填空任务（尝试推理API或阅读下一部分）。

但是，它旨在在问答、文本分类或命名实体识别等非生成性下游任务上进行微调。

局限性和偏差

在提交时，尚未采取措施来估计模型中嵌入的偏差和毒性。然而，我们清楚地知道，由于语料库是使用爬虫技术从多个网络源收集的，我们的模型可能存在偏差。我们打算在未来对这些领域进行研究，如果完成，此模型卡片将进行更新。

训练

训练语料库和预处理

西班牙国家图书馆 (Biblioteca Nacional de España) 每年对所有 .es 域名进行一次爬取。训练语料库由2009年至2019年进行的这些爬取的59TB WARC文件组成。

为了获得高质量的训练语料库，语料库经过了一系列操作的预处理，包括句子分割、语言检测、过滤格式错误的句子以及重复内容的去重。在此过程中，文档边界得以保留。这产生了2TB的西班牙语清洁语料库。进一步对语料库进行全局去重，得到了570GB的文本。

语料库的一些统计信息如下：

语料库	文档数量	标记数量	大小 (GB)
BNE	201,080,084	135,733,450,668	570GB

对于这个Longformer模型，我们使用了一个7.2GB的小随机分区作为训练分割，其中包含少于4096个标记的文档。

分词和预训练

训练语料库使用了原始 RoBERTA 模型中使用的字节版本的字节对编码（BPE）进行分词，词汇表大小为50,262个标记。RoBERTa-base-bne的预训练包括一个掩码语言模型训练，遵循RoBERTa基础模型采用的方法。训练总共持续了40小时，使用了8个计算节点，每个节点配备2个32GB VRAM的AMD MI50 GPU。

评估

在下游任务上进行微调时，该模型取得了以下性能：

数据集	指标	Longformer-base
MLDoc	F1	0.9608
CoNLL-NERC	F1	0.8757
CAPITEL-NERC	F1	0.8985
PAWS-X	F1	0.8878
UD-POS	F1	0.9903
CAPITEL-POS	F1	0.9853
SQAC	F1	0.8026
STS	综合指标	0.8338
XNLI	准确率	0.8210