upos-english-fast开源模型 - 免费实现英语通用词性快速精准标注

首页

Upos English Fast

由 flair 开发

Flair自带的英语通用词性标注快速模型，基于Ontonotes数据集训练，F1分数达98.47

序列标注

PyTorch

英语#英语词性标注 #快速推理 #高精度UPOS

下载量 3,677

发布时间 : 3/2/2022

模型简介

这是一个用于英语通用词性标注的序列标注模型，能够准确识别文本中单词的词性类别，如名词、动词、形容词等。

模型特点

高准确率

在Ontonotes数据集上达到98.47的F1分数，表现优异

快速推理

作为快速版模型，在保持较高准确率的同时优化了推理速度

全面标签覆盖

支持17种通用词性标签，涵盖英语中的各类词性

模型能力

英语词性标注

序列标注

文本分析

使用案例

自然语言处理

文本预处理

为下游NLP任务提供词性标注预处理

提高后续任务如命名实体识别、句法分析的准确性

语言学习工具

构建英语学习辅助工具，自动分析句子结构

帮助学习者理解英语语法结构

🚀 Flair英文通用词性标注（快速模型）

本项目是一个用于英文的快速通用词性标注模型，它是 Flair 库的一部分。该模型能够高效准确地为英文文本进行词性标注，在词性标注任务中具有出色的表现。

F1 分数：98.47（基于 Ontonotes 数据集）

此模型可预测的通用词性标签如下：

标签	含义
ADJ	形容词
ADP	介词
ADV	副词
AUX	助动词
CCONJ	并列连词
DET	限定词
INTJ	感叹词
NOUN	名词
NUM	数词
PART	小品词
PRON	代词
PROPN	专有名词
PUNCT	标点符号
SCONJ	从属连词
SYM	符号
VERB	动词
X	其他

该模型基于 Flair 嵌入和 LSTM - CRF 构建。

🚀 快速开始

本模型的使用需要安装 Flair 库，可以使用以下命令进行安装：

pip install flair

💻 使用示例

基础用法

from flair.data import Sentence
from flair.models import SequenceTagger

# 加载标签器
tagger = SequenceTagger.load("flair/upos-english-fast")

# 创建示例句子
sentence = Sentence("I love Berlin.")

# 预测词性标签
tagger.predict(sentence)

# 打印句子
print(sentence)

# 打印预测的词性标签
print('The following NER tags are found:')
# 遍历实体并打印
for entity in sentence.get_spans('pos'):
    print(entity)

上述代码的输出结果如下：

Span [1]: "I"   [− Labels: PRON (0.9996)]
Span [2]: "love"   [− Labels: VERB (1.0)]
Span [3]: "Berlin"   [− Labels: PROPN (0.9986)]
Span [4]: "."   [− Labels: PUNCT (1.0)]

在句子 “I love Berlin.” 中，“I” 被标记为代词（PRON），“love” 被标记为动词（VERB），“Berlin” 被标记为 专有名词（PROPN）。

🔧 技术细节

训练脚本

以下是用于训练此模型的 Flair 脚本：

from flair.data import Corpus
from flair.datasets import ColumnCorpus
from flair.embeddings import WordEmbeddings, StackedEmbeddings, FlairEmbeddings

# 1. 加载语料库（Ontonotes 未包含在 Flair 中，你需要自行下载并转换为列格式）
corpus: Corpus = ColumnCorpus(
                "resources/tasks/onto-ner",
                column_format={0: "text", 1: "pos", 2: "upos", 3: "ner"},
                tag_to_bioes="ner",
            )

# 2. 确定要预测的标签类型
tag_type = 'upos'

# 3. 从语料库中创建标签字典
tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)

# 4. 初始化使用的嵌入
embedding_types = [

    # 上下文字符串嵌入，正向
    FlairEmbeddings('news-forward-fast'),

    # 上下文字符串嵌入，反向
    FlairEmbeddings('news-backward-fast'),
]

# 嵌入栈由 Flair 和 GloVe 嵌入组成
embeddings = StackedEmbeddings(embeddings=embedding_types)

# 5. 初始化序列标签器
from flair.models import SequenceTagger

tagger = SequenceTagger(hidden_size=256,
                        embeddings=embeddings,
                        tag_dictionary=tag_dictionary,
                        tag_type=tag_type)

# 6. 初始化训练器
from flair.trainers import ModelTrainer

trainer = ModelTrainer(tagger, corpus)

# 7. 开始训练
trainer.train('resources/taggers/upos-english-fast',
              train_with_dev=True,
              max_epochs=150)

📄 引用

使用此模型时，请引用以下论文：

@inproceedings{akbik2018coling,
  title={Contextual String Embeddings for Sequence Labeling},
  author={Akbik, Alan and Blythe, Duncan and Vollgraf, Roland},
  booktitle = {{COLING} 2018, 27th International Conference on Computational Linguistics},
  pages     = {1638--1649},
  year      = {2018}
}