longformer_zh开源中文长文本处理模型 - 免费处理4096字符文档序列

首页

Longformer Zh

由 ValkyriaLenneth 开发

基于PyTorch的中文Longformer模型，能以线性复杂度处理最长4096字符的文档序列，适用于中文长文本任务。

大型语言模型

Transformers

#长文本处理 #线性复杂度注意力 #中文全词掩码

下载量 418

发布时间 : 3/2/2022

模型简介

该模型融合了局部窗口注意力与任务导向的全局注意力，可完美替代标准自注意力模块，特别适合处理中文长文本任务。

模型特点

线性复杂度处理长文本

相较于Transformer的O(n^2)复杂度，能以线性复杂度处理最长4096字符的文档序列。

混合注意力机制

融合了局部窗口注意力与任务导向的全局注意力，可完美替代标准自注意力模块。

全词掩码机制

引入全词掩码(WWM)机制适配中文特性，据查为首个开源的PyTorch版中文WWM实现。

模型能力

长文本处理

文本分类

阅读理解

指代消解

情感分析

使用案例

情感分析

CCF情感分析

用于中文文本情感分类任务

开发集F1达到80.51，与Roberta-mid相当

阅读理解

中文阅读理解(CMRC)

用于中文阅读理解任务

F1:86.15, EM:66.84，优于Bert基准

指代消解

指代消解任务

用于中文指代消解任务

Conll-F1:67.81，优于Bert和Roberta

🚀 中文预训练Longformer模型 | Longformer_ZH with PyTorch

本项目开源了预训练的中文Longformer模型参数。相比于Transformer的O(n^2)复杂度，Longformer能以线性复杂度处理最长4K字符级别的文档序列。其注意力机制结合了标准自注意力与全局注意力，便于模型学习超长序列信息。项目还提供了模型加载方法和预训练脚本，助力相关研究。

🚀 快速开始

下载模型

您可以使用谷歌云盘或百度网盘下载我们的模型：

Google Drive: https://drive.google.com/file/d/1IDJ4aVTfSFUQLIqCYBtoRpnfbgHPoxB4/view?usp=sharing
百度云: 链接：https://pan.baidu.com/s/1HaVDENx52I7ryPFpnQmq1w 提取码：y601

我们同样提供了Huggingface的自动下载方式：

from Longformer_zh import LongformerZhForMaksedLM
LongformerZhForMaksedLM.from_pretrained('ValkyriaLenneth/longformer_zh')

✨ 主要特性

高效处理长序列：相比Transformer的O(n^2)复杂度，Longformer以线性复杂度处理最长4K字符级别的文档序列。
独特注意力机制：Longformer Attention结合了标准自注意力与全局注意力，有助于模型更好地学习超长序列信息。
适配中文特性：基于Roberta_zh模型，引入Whole-Word-Masking机制，更适应中文语言特点。

📦 安装指南

暂未提及具体安装步骤，可按照上述快速开始部分进行模型下载和加载。

💻 使用示例

基础用法

from Longformer_zh import LongformerZhForMaksedLM
LongformerZhForMaksedLM.from_pretrained('ValkyriaLenneth/longformer_zh')

📚 详细文档

注意事项

⚠️ 重要提示

直接使用 transformers.LongformerModel.from_pretrained 加载模型。

以下内容已经被弃用：区别于英文原版Longformer，中文Longformer的基础是Roberta_zh模型，其本质上属于 Transformers.BertModel 而非 RobertaModel，因此无法使用原版代码直接加载。我们提供了修改后的中文Longformer文件，您可以使用其加载参数。如果您想将此参数用于更多任务，请参考Longformer_zh.py替换Attention Layer。

关于预训练

预训练语料：来自 https://github.com/brightmart/nlp_chinese_corpus，根据Longformer原文的设置，采用了多种语料混合的预训练数据。
基础模型：基于Roberta_zh_mid (https://github.com/brightmart/roberta_zh)，训练脚本参考了https://github.com/allenai/longformer/blob/master/scripts/convert_model_to_long.ipynb。
特殊机制：引入了 Whole-Word-Masking 机制，代码改写自TensorFlow版本的Roberta_zh，是首个开源的Pytorch版本WWM，以便更好地适应中文特性。
训练参数：模型 max_seq_length = 4096，在 4 * Titan RTX 上预训练3K steps 大概用时4天。使用了 Nvidia.Apex 引入混合精度训练以加速预训练。数据预处理采用 Jieba 分词与JIONLP进行数据清洗。