数据集:
标签:
语言: 英语
模型索引:
- 名称: transfo-xl-wt103
结果: []
任务:
名称: 文本生成
类型: text-generation
Transfo-xl-wt103 模型
目录
模型详情
模型描述:
Transformer-XL模型是一种采用相对位置编码(正弦波嵌入)的因果(单向)Transformer架构,能够通过复用先前计算的隐藏状态来捕捉更长上下文(记忆)。该模型还使用了自适应软max输入输出(绑定式)。
用途
直接应用
本模型可用于文本生成任务。
作者在相关论文中补充说明了词汇表使用注意事项:
我们预见Transformer-XL在文本生成、无监督特征学习、图像与语音建模领域具有广阔应用前景。
不当使用与超范围应用
禁止使用本模型故意制造敌对或排斥性环境。此外,该模型未经过事实性内容训练,因此生成此类内容超出模型能力范围。
风险、局限性与偏见
内容警示:本节可能包含令人不适、具有冒犯性及传播历史/当代偏见的内容。
关于语言模型偏见问题的研究可参考Sheng等(2021)和Bender等(2021)。
训练过程
训练数据
作者在相关论文中说明:
最佳模型基于Wikitext-103数据集训练。我们从Wikitext-103测试集中随机抽取最多512个连续标记作为初始上下文,随后运行Transformer-XL生成预定数量标记(本实验为500或1000个)。每个生成步骤中,我们首先筛选出概率最高的40个候选标记,并根据重新归一化的分布进行采样。为便于阅读,我们对上下文、生成文本和参考文本进行了解标记处理。
训练使用的语料库包括:
- WikiText-103 (Merity等, 2016)
训练流程
预处理
作者在相关论文中说明:
与enwik8相似但不同,text8包含1亿个经过处理的维基百科字符(全部转为小写并移除非字母a-z及空格外的字符)。鉴于相似性,我们直接将enwik8的最佳模型和超参数迁移至text8数据集,未做额外调参。
评估结果
性能指标
方法 |
enwiki8 |
text8 |
十亿词库 |
WT-103 |
PTB (未微调) |
Transformer-XL |
0.99 |
1.08 |
21.8 |
18.3 |
54.5 |
引用信息
@misc{https://doi.org/10.48550/arxiv.1901.02860,
doi = {10.48550/ARXIV.1901.02860},
url = {https://arxiv.org/abs/1901.02860},
author = {Dai, Zihang and Yang, Zhilin and Yang, Yiming and Carbonell, Jaime and Le, Quoc V. and Salakhutdinov, Ruslan},
keywords = {机器学习 (cs.LG), 计算语言学 (cs.CL), 机器学习 (stat.ML), FOS: 计算机与信息科学, FOS: 计算机与信息科学},
title = {Transformer-XL:突破固定长度上下文的注意力语言模型},
publisher = {arXiv},
year = {2019},
copyright = {知识共享署名-非商业性使用-相同方式共享4.0国际许可协议}
}
快速使用指南
from transformers import TransfoXLTokenizer, TransfoXLModel
import torch
tokenizer = TransfoXLTokenizer.from_pretrained("transfo-xl-wt103")
model = TransfoXLModel.from_pretrained("transfo-xl-wt103")
inputs = tokenizer("你好,我的小狗很可爱", return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state