L

Longformer Base 4096 Bne Es

由 PlanTL-GOB-ES 开发
基于Longformer架构的西班牙语掩码语言模型,能够处理长文本输入,适用于问答、文本分类等任务
下载量 52.76k
发布时间 : 11/2/2022
模型介绍
内容详情
替代品

模型简介

该模型基于RoBERTa架构改进,专门针对西班牙语长文本处理优化,支持4096词元的上下文长度,适用于多种自然语言处理任务

模型特点

长文本处理能力
支持4096词元的上下文长度,无需额外聚合策略即可处理长文档
改进的注意力机制
采用滑动窗口注意力与全局注意力相结合的方式,平衡计算效率与上下文理解
西班牙语优化
基于西班牙国家图书馆大规模语料训练,专门针对西班牙语特性优化

模型能力

掩码语言建模
文本分类
命名实体识别
问答系统
语义相似度计算

使用案例

文本分析
法律文档分析
分析西班牙语法律文档中的关键信息
新闻分类
对西班牙语新闻文章进行分类
在MLDoc数据集上F1得分0.9608
信息提取
命名实体识别
从西班牙语文档中提取人名、地名等实体
在CoNLL-NERC数据集上F1得分0.8757