T

Transfo Xl Wt103

由 transfo-xl 开发
Transformer-XL是一种采用相对位置编码的因果Transformer架构,能够通过复用先前计算的隐藏状态来捕捉更长上下文,适用于文本生成任务。
下载量 4,498
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型基于Wikitext-103数据集训练,主要用于英语文本生成任务,采用自适应软max输入输出和记忆机制增强长文本处理能力。

模型特点

长文本记忆机制
通过复用先前计算的隐藏状态实现跨段记忆,有效捕捉长距离依赖关系
相对位置编码
采用正弦波嵌入的位置编码方案,增强模型对位置信息的敏感性
自适应软max
使用绑定式输入输出的自适应softmax,提升计算效率

模型能力

英语文本生成
长文本序列建模

使用案例

内容创作
自动文本续写
根据给定开头自动生成连贯的后续文本
可生成500-1000个标记的连贯文本
教育研究
语言模型研究
用于研究长文本依赖关系的建模方法
在Wikitext-103上达到18.3的困惑度