Funnel Transformer开源英语文本预训练模型 - 过滤冗余实现高效语言处理

首页

Xlarge

由 funnel-transformer 开发

Funnel Transformer是一种基于自监督学习的英语文本预训练模型，采用类似ELECTRA的目标任务，通过过滤序列冗余实现高效语言处理。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #ELECTRA式预训练 #文本特征提取 #不区分大小写

下载量 31

发布时间 : 3/2/2022

模型简介

该模型基于大量英语文本预训练，主要用于提取文本特征或在下游任务上进行微调，适用于序列分类、标记分类或问答等任务。

模型特点

高效序列处理

通过过滤序列冗余设计，实现更高效的语言处理

类ELECTRA预训练

采用类似ELECTRA的替换标记检测任务进行预训练

不区分大小写

模型对大小写不敏感，统一处理相同单词的不同大小写形式

模型能力

文本特征提取

序列分类

标记分类

问答任务

使用案例

自然语言处理

文本分类

可用于情感分析、主题分类等文本分类任务

命名实体识别

可用于识别文本中的人名、地名、组织名等实体

🚀 Funnel Transformer xlarge模型 (B10 - 10 - 10 带解码器)

Funnel Transformer xlarge模型是一个预训练模型，它使用与 ELECTRA 类似的目标在英文语料上进行训练。该模型在这篇论文中被提出，并首次在这个仓库中发布。此模型不区分大小写，即不区分 “english” 和 “English”。

声明：发布Funnel Transformer的团队并未为此模型编写模型卡片，此模型卡片由Hugging Face团队编写。

🚀 快速开始

该模型可用于提取给定文本的向量表示，但主要用于在下游任务中进行微调。你可以在模型中心查找针对你感兴趣的任务进行微调后的版本。

✨ 主要特性

自监督预训练：Funnel Transformer是一个基于自监督方式在大量英文数据语料库上进行预训练的Transformer模型。它仅在原始文本上进行预训练，无需人工进行任何标注，通过自动处理从这些文本中生成输入和标签。
特征提取与下游任务：模型学习到英语语言的内部表示，可用于提取对下游任务有用的特征。例如，若有标记句子的数据集，可使用该模型生成的特征作为输入来训练标准分类器。

📦 安装指南

文档未提及具体安装步骤，可参考Hugging Face相关库的安装说明。

💻 使用示例

基础用法

以下是如何在PyTorch中使用此模型获取给定文本的特征：

from transformers import FunnelTokenizer, FunnelModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/xlarge")
model = FunnelModel.from_pretrained("funnel-transformer/xlarge")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

高级用法

在TensorFlow中使用此模型获取给定文本的特征：

from transformers import FunnelTokenizer, TFFunnelModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/xlarge")
model = TFFunnelModel.from_pretrained("funnel-transformer/xlarge")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

📚 详细文档

预期用途和限制

可以使用原始模型提取给定文本的向量表示，但主要用于在下游任务中进行微调。
此模型主要旨在针对使用整个句子（可能是掩码的）进行决策的任务进行微调，如序列分类、标记分类或问答任务。对于文本生成等任务，应考虑使用GPT2等模型。

训练数据

该模型在以下数据集上进行预训练：

BookCorpus，包含11,038本未出版书籍的数据集。
英文维基百科（不包括列表、表格和标题）。
Clue Web，包含733,019,372个英文网页的数据集。
GigaWord，新闻专线文本数据存档。
Common Crawl，原始网页数据集。

引用信息

@misc{dai2020funneltransformer,
    title={Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing},
    author={Zihang Dai and Guokun Lai and Yiming Yang and Quoc V. Le},
    year={2020},
    eprint={2006.03236},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

📄 许可证

该模型使用Apache-2.0许可证。

属性	详情
模型类型	Funnel Transformer xlarge模型 (B10 - 10 - 10 带解码器)
训练数据	BookCorpus、英文维基百科、Clue Web、GigaWord、Common Crawl