luke-large开源预训练模型 - 为单词和实体提供深度上下文表示

首页

Luke Large

由 studio-ousia 开发

LUKE是一种基于Transformer的预训练模型，专门针对单词和实体设计，通过实体感知的自注意力机制提供深度上下文表示。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #实体感知注意力 #多任务NLP #知识增强表示

下载量 1,040

发布时间 : 3/2/2022

模型简介

LUKE是一种创新的预训练上下文表示方法，将文本中的单词和实体视为独立标记，并输出它们的上下文相关表示。该模型采用实体感知的自注意力机制，扩展了传统Transformer的自注意力机制，在计算注意力分数时考虑标记类型（单词或实体）。

模型特点

实体感知自注意力机制

扩展传统Transformer的自注意力机制，在计算注意力分数时考虑标记类型（单词或实体）。

联合表示单词和实体

将文本中的单词和实体视为独立标记，并输出它们的上下文相关表示。

多任务优异表现

在五项主流自然语言处理基准测试中取得最先进的结果。

模型能力

命名实体识别

实体类型标注

关系分类

抽取式问答

完形填空式问答

使用案例

信息抽取

命名实体识别

从文本中识别并分类命名实体（如人名、地名、组织名等）

在CoNLL-2003数据集上达到94.3 F1分数

关系分类

识别实体之间的关系类型

在TACRED数据集上达到72.7 F1分数

问答系统

抽取式问答

从给定文本中抽取答案回答自然语言问题

在SQuAD v1.1数据集上达到90.2 EM/95.4 F1

完形填空式问答

通过理解上下文填补句子中的空缺

在ReCoRD数据集上达到90.6 EM/91.2 F1

🚀 LUKE：基于实体感知自注意力机制的深度上下文实体表示

LUKE（基于知识嵌入的语言理解，Language Understanding with Knowledge-based Embeddings）是一种基于Transformer的预训练词和实体上下文表示模型。LUKE将给定文本中的词和实体视为独立的标记，并输出它们的上下文表示。它采用了实体感知自注意力机制，这是Transformer自注意力机制的扩展，在计算注意力分数时会考虑标记的类型（词或实体）。

LUKE在五个流行的自然语言处理基准测试中取得了最先进的成果，包括**SQuAD v1.1（抽取式问答）、CoNLL - 2003（命名实体识别）、ReCoRD（完形填空式问答）、TACRED（关系分类）和Open Entity**（实体类型标注）。

更多详细信息和更新请查看官方仓库。

这是LUKE的大模型，有24个隐藏层，隐藏层大小为1024。该模型的总参数数量为4.83亿。它使用2018年12月版本的维基百科进行训练。

✨ 主要特性

基于Transformer架构，为词和实体提供深度上下文表示。
采用实体感知自注意力机制，在计算注意力分数时考虑标记类型。
在多个自然语言处理基准测试中取得了最先进的成果。

📚 详细文档

实验结果

实验结果如下：

任务	数据集	指标	LUKE-large	luke-base	之前的最优结果
抽取式问答	SQuAD v1.1	EM/F1	90.2/95.4	86.1/92.3	89.9/95.1 (Yang et al., 2019)
命名实体识别	CoNLL - 2003	F1	94.3	93.3	93.5 (Baevski et al., 2019)
完形填空式问答	ReCoRD	EM/F1	90.6/91.2	-	83.1/83.7 (Li et al., 2019)
关系分类	TACRED	F1	72.7	-	72.0 (Wang et al., 2020)
细粒度实体类型标注	Open Entity	F1	78.2	-	77.6 (Wang et al., 2020)

引用

如果您发现LUKE对您的工作有帮助，请引用以下论文：

@inproceedings{yamada2020luke,
  title={LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention},
  author={Ikuya Yamada and Akari Asai and Hiroyuki Shindo and Hideaki Takeda and Yuji Matsumoto},
  booktitle={EMNLP},
  year={2020}
}