intermediate-base开源模型 - 免费可用，为英语句子摘要任务提供有力支持

首页

Intermediate Base

由 funnel-transformer 开发

基于英语语料预训练的Transformer模型，采用类似ELECTRA的自监督方式训练，适用于需要句子摘要的任务。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #英语文本摘要 #ELECTRA式预训练 #序列分类优化

下载量 20

发布时间 : 3/2/2022

模型简介

Funnel Transformer是一个基于自监督方式在大规模英语语料上预训练的Transformer模型，主要用于提取文本特征以供下游任务微调使用。

模型特点

自监督预训练

采用类似ELECTRA的自监督方式训练，无需人工标注数据

高效序列处理

输出隐藏状态序列长度为输入的四分之一，适合需要句子摘要的任务

不区分大小写

模型不区分字母大小写，如'english'和'English'被视为相同

模型能力

文本特征提取

句子分类

序列分类

标记分类

问答任务

使用案例

自然语言处理

句子分类

使用模型提取的特征作为输入训练标准分类器

问答系统

利用模型提取的文本特征构建问答系统

🚀 Funnel Transformer中间模型（无解码器的B6 - 6 - 6）

Funnel Transformer中间模型是一个基于自监督学习的预训练模型，它使用与ELECTRA类似的目标在英文语料上进行训练。该模型在this paper中被提出，并首次在this repository中发布。此模型不区分大小写：它对“english”和“English”不做区分。

声明：发布Funnel Transformer的团队并未为此模型撰写模型卡片，此模型卡片由Hugging Face团队撰写。

✨ 主要特性

基于自监督学习在大规模英文语料上进行预训练，可学习到英文语言的内在表示，用于下游任务特征提取。
模型不包含解码器，输出的隐藏状态序列长度为输入的四分之一，适合需要句子摘要的任务。

📚 详细文档

模型描述

Funnel Transformer是一个以自监督方式在大量英文数据语料上进行预训练的Transformer模型。这意味着它仅在原始文本上进行预训练，没有人工对其进行任何标注（这就是它可以使用大量公开可用数据的原因），而是通过自动过程从这些文本中生成输入和标签。

更确切地说，一个小型语言模型会对输入文本进行破坏，并作为该模型输入的生成器，预训练的目标是预测哪个标记是原始标记，哪个是被替换的标记，有点像GAN训练。

通过这种方式，模型学习到英文语言的内在表示，然后可用于提取对下游任务有用的特征：例如，如果您有一个标记好的句子数据集，您可以使用BERT模型生成的特征作为输入来训练一个标准分类器。

注意：此模型不包含解码器，因此它输出的隐藏状态序列长度是输入的四分之一。它适用于需要句子摘要的任务（如句子分类），但如果您需要每个初始标记都有一个输入，则不适用。在这种情况下，您应该使用intermediate模型。

预期用途和限制

您可以使用原始模型提取给定文本的向量表示，但它主要用于在下游任务上进行微调。请参阅模型中心，查找针对您感兴趣的任务进行微调的版本。

请注意，此模型主要旨在针对使用整个句子（可能经过掩码处理）进行决策的任务进行微调，例如序列分类、标记分类或问答。对于文本生成等任务，您应该考虑使用GPT2等模型。

💻 使用示例

基础用法

以下是如何在PyTorch中使用此模型提取给定文本的特征：

from transformers import FunnelTokenizer, FunnelBaseModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/intermediate-base")
model = FunnelBaseModel.from_pretrained("funnel-transformer/intermediate-base")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

在TensorFlow中的使用示例：

from transformers import FunnelTokenizer, TFFunnelBaseModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/intermediate-base")
model = TFFunnelBaseModel.from_pretrained("funnel-transformer/intermediate-base")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

📦 安装指南

文档未提及安装步骤，暂不提供。

🔧 技术细节

训练数据

该模型在以下数据集上进行预训练：

BookCorpus，一个包含11,038本未出版书籍的数据集。
英文维基百科（不包括列表、表格和标题）。
Clue Web，一个包含733,019,372个英文网页的数据集。
GigaWord，一个新闻专线文本数据存档。
Common Crawl，一个原始网页数据集。

BibTeX引用和引用信息

@misc{dai2020funneltransformer,
    title={Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing},
    author={Zihang Dai and Guokun Lai and Yiming Yang and Quoc V. Le},
    year={2020},
    eprint={2006.03236},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}