frame-english-fast开源模型 - 快速预测英语句子中动词语义角色标签

首页

Frame English Fast

由 flair 开发

Flair自带的英语动词消歧快速模型，用于预测句子中动词的语义角色标签。

序列标注

PyTorch

英语#动词框架消歧 #语义角色标注 #LSTM-CRF架构

下载量 368

发布时间 : 3/2/2022

模型简介

该模型基于Flair嵌入和LSTM-CRF架构，用于识别英语句子中动词的语义框架，特别是命题库动词框架。

模型特点

快速预测

作为快速模型，在保持较高准确率的同时提供更快的预测速度

语义角色标注

能够准确识别动词在句子中的语义角色和框架

多框架识别

可以区分同一动词在不同上下文中的不同语义框架（如return.01和return.02）

模型能力

动词消歧

语义角色标注

序列标注

使用案例

自然语言处理

动词语义分析

分析句子中动词的具体语义框架

准确区分同一动词在不同上下文中的不同含义

信息提取

从文本中提取动词及其语义角色信息

为下游NLP任务提供结构化语义信息

🚀 Flair英文动词消歧（快速模型）

本项目是 Flair 自带的用于英文的快速动词消歧模型。该模型能够有效解决英文句子中动词含义模糊的问题，为自然语言处理任务提供更准确的语义理解。

🚀 快速开始

本模型需要 Flair，你可以使用以下命令进行安装：

pip install flair

✨ 主要特性

高准确率：在 Ontonotes 数据集上，F1 分数达到 88.27，能够准确预测命题库动词框架。
技术先进：基于 Flair 嵌入和 LSTM - CRF 构建。

💻 使用示例

基础用法

以下是在 Flair 中使用该模型的示例代码：

from flair.data import Sentence
from flair.models import SequenceTagger

# 加载标签器
tagger = SequenceTagger.load("flair/frame-english-fast")

# 创建示例句子
sentence = Sentence("George returned to Berlin to return his hat.")

# 预测命名实体识别标签
tagger.predict(sentence)

# 打印句子
print(sentence)

# 打印预测的命名实体识别跨度
print('The following frame tags are found:')
# 遍历实体并打印
for entity in sentence.get_spans('frame'):
    print(entity)

上述代码的输出如下：

Span [2]: "returned"   [− Labels: return.01 (0.9867)]
Span [6]: "return"   [− Labels: return.02 (0.4741)]

在句子 “George returned to Berlin to return his hat” 中，“returned” 被标记为 return.01（表示 “回到某个地方”），而 “return” 被标记为 return.02（表示 “归还某物”）。

🔧 技术细节

训练脚本

以下是用于训练该模型的 Flair 脚本：

from flair.data import Corpus
from flair.datasets import ColumnCorpus
from flair.embeddings import WordEmbeddings, StackedEmbeddings, FlairEmbeddings

# 1. 加载语料库（Ontonotes 不随 Flair 提供，你需要自行下载并重新格式化为列格式）
corpus = ColumnCorpus(
    "resources/tasks/srl", column_format={1: "text", 11: "frame"}
)

# 2. 确定要预测的标签类型
tag_type = 'frame'

# 3. 从语料库中创建标签字典
tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)

# 4. 初始化使用的每个嵌入
embedding_types = [

    BytePairEmbeddings("en"),

    FlairEmbeddings("news-forward-fast"),

    FlairEmbeddings("news-backward-fast"),
]

# 嵌入栈由 Flair 和 GloVe 嵌入组成
embeddings = StackedEmbeddings(embeddings=embedding_types)

# 5. 初始化序列标签器
from flair.models import SequenceTagger

tagger = SequenceTagger(hidden_size=256,
                        embeddings=embeddings,
                        tag_dictionary=tag_dictionary,
                        tag_type=tag_type)

# 6. 初始化训练器
from flair.trainers import ModelTrainer

trainer = ModelTrainer(tagger, corpus)

# 7. 运行训练
trainer.train('resources/taggers/frame-english-fast',
              train_with_dev=True,
              max_epochs=150)

📄 许可证

使用该模型时，请引用以下论文：

@inproceedings{akbik2019flair,
  title={FLAIR: An easy-to-use framework for state-of-the-art NLP},
  author={Akbik, Alan and Bergmann, Tanja and Blythe, Duncan and Rasul, Kashif and Schweter, Stefan and Vollgraf, Roland},
  booktitle={{NAACL} 2019, 2019 Conference of the North American Chapter of the Association for Computational Linguistics (Demonstrations)},
  pages={54--59},
  year={2019}
}