语言: 英语
许可证: Apache-2.0
数据集:
Funnel Transformer xlarge 模型(带解码器的 B10-10-10 版本)
这是一个基于英语语料预训练的模型,采用了与 ELECTRA 类似的目标任务。该模型由 这篇论文 提出,并首次发布于 此代码库。该模型不区分大小写:例如 "english" 和 "English" 被视为相同。
免责声明:发布 Funnel Transformer 的团队未为此模型编写说明卡片,因此本卡片由 Hugging Face 团队撰写。
模型描述
Funnel Transformer 是一种基于自监督学习方式在大量英语文本上预训练的 Transformer 模型。这意味着它仅通过原始文本进行预训练,无需任何人工标注(因此可以利用大量公开数据),并通过自动过程从文本生成输入和标签。
具体来说,一个小型语言模型会破坏输入文本,作为该模型的输入生成器,预训练目标是预测哪些标记是原始标记,哪些被替换过,类似于 GAN 的训练方式。
通过这种方式,模型学习到英语语言的内在表示,可用于提取对下游任务有用的特征:例如,如果您有一个带标签句子的数据集,可以使用该模型生成的特征作为输入来训练标准分类器。
用途与限制
您可以直接使用该模型提取文本的向量表示,但它主要用于在下游任务上进行微调。请参阅 模型中心 查找您感兴趣任务的微调版本。
请注意,该模型主要针对需要使用整个句子(可能包含掩码)进行决策的任务,例如序列分类、标记分类或问答。对于文本生成等任务,应使用类似 GPT2 的模型。
使用方法
以下是如何在 PyTorch 中使用该模型获取给定文本的特征:
from transformers import FunnelTokenizer, FunnelModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/xlarge")
model = FunnelModel.from_pretrained("funnel-transformer/xlarge")
text = "替换为任意文本。"
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
在 TensorFlow 中的使用方法:
from transformers import FunnelTokenizer, TFFunnelModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/xlarge")
model = TFFunnelModel.from_pretrained("funnel-transformer/xlarge")
text = "替换为任意文本。"
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
训练数据
BERT 模型的预训练数据包括:
BibTeX 条目与引用信息
@misc{dai2020funneltransformer,
title={Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing},
author={Zihang Dai and Guokun Lai and Yiming Yang and Quoc V. Le},
year={2020},
eprint={2006.03236},
archivePrefix={arXiv},
primaryClass={cs.LG}
}