pos-english开源英语词性标注模型 - 基于数据集训练，高准确率完成标注

首页

Pos English

由 flair 开发

Flair自带的英语标准词性标注模型，基于Ontonotes数据集训练，F1分数为98.19。

序列标注

PyTorch

英语#细粒度词性标注 #高精度F1-98.19 #Flair嵌入+LSTM-CRF

下载量 24.83k

发布时间 : 3/2/2022

模型简介

该模型用于英语文本的词性标注，能够预测细粒度的词性标签。

模型特点

高精度词性标注

在Ontonotes数据集上达到98.19的F1分数，表现优异。

细粒度标签

支持多种细粒度的词性标签，包括动词时态、名词单复数等。

基于Flair嵌入

使用Flair上下文字符串嵌入，能够捕捉词汇的上下文信息。

模型能力

英语词性标注

细粒度词性标签预测

使用案例

自然语言处理

文本分析

用于分析英语文本的词性结构，辅助语法分析和语义理解。

准确标注每个单词的词性，如动词、名词、形容词等。

语言学习工具

集成到语言学习应用中，帮助学习者理解句子结构。

提供详细的词性标注，辅助语法学习。

🚀 Flair中的英文词性标注（默认模型）

这是随 Flair 一起发布的英文标准词性标注模型。它能够有效解决英文文本中词性标注的问题，为自然语言处理任务提供准确的词性信息。

F1分数：98.19（Ontonotes数据集）

该模型可预测细粒度的词性标签：

标签	含义
ADD	电子邮件
AFX	词缀
CC	并列连词
CD	基数词
DT	限定词
EX	存在句中的“there”
FW	外来词
HYPH	连字符
IN	介词或从属连词
JJ	形容词
JJR	形容词比较级
JJS	形容词最高级
LS	列表项标记
MD	情态动词
NFP	多余的标点符号
NN	单数名词或物质名词
NNP	单数专有名词
NNPS	复数专有名词
NNS	复数名词
PDT	前位限定词
POS	所有格结尾
PRP	人称代词
PRP$	物主代词
RB	副词
RBR	副词比较级
RBS	副词最高级
RP	小品词
SYM	符号
TO	“to”
UH	感叹词
VB	动词原形
VBD	动词过去式
VBG	动词的动名词或现在分词
VBN	动词过去分词
VBP	非第三人称单数现在时动词
VBZ	第三人称单数现在时动词
WDT	疑问限定词
WP	疑问代词
WP$	所有格疑问代词
WRB	疑问副词
XX	未知

该模型基于 Flair嵌入和LSTM - CRF。

🚀 快速开始

安装

本项目需要安装 Flair，可以使用以下命令进行安装：

pip install flair

使用示例

基础用法

from flair.data import Sentence
from flair.models import SequenceTagger

# 加载标签器
tagger = SequenceTagger.load("flair/pos-english")

# 创建示例句子
sentence = Sentence("I love Berlin.")

# 预测词性标签
tagger.predict(sentence)

# 打印句子
print(sentence)

# 打印预测的词性标签范围
print('The following NER tags are found:')
# 遍历实体并打印
for entity in sentence.get_spans('pos'):
    print(entity)

上述代码会产生以下输出：

Span [1]: "I"   [− Labels: PRP (1.0)]
Span [2]: "love"   [− Labels: VBP (1.0)]
Span [3]: "Berlin"   [− Labels: NNP (0.9999)]
Span [4]: "."   [− Labels: . (1.0)]

在句子 “I love Berlin” 中，单词 “I” 被标记为代词（PRP），“love” 被标记为动词（VBP），“Berlin” 被标记为专有名词（NNP）。

🔧 技术细节

训练脚本

以下是用于训练此模型的Flair脚本：

from flair.data import Corpus
from flair.datasets import ColumnCorpus
from flair.embeddings import WordEmbeddings, StackedEmbeddings, FlairEmbeddings

# 1. 加载语料库（Ontonotes不随Flair一起发布，你需要自己下载并重新格式化为列格式）
corpus: Corpus = ColumnCorpus(
                "resources/tasks/onto-ner",
                column_format={0: "text", 1: "pos", 2: "upos", 3: "ner"},
                tag_to_bioes="ner",
            )

# 2. 我们要预测的标签类型是什么？
tag_type = 'pos'

# 3. 从语料库中创建标签字典
tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)

# 4. 初始化我们使用的每个嵌入
embedding_types = [

    # 上下文字符串嵌入，前向
    FlairEmbeddings('news-forward'),

    # 上下文字符串嵌入，后向
    FlairEmbeddings('news-backward'),
]

# 嵌入栈由Flair和GloVe嵌入组成
embeddings = StackedEmbeddings(embeddings=embedding_types)

# 5. 初始化序列标签器
from flair.models import SequenceTagger

tagger = SequenceTagger(hidden_size=256,
                        embeddings=embeddings,
                        tag_dictionary=tag_dictionary,
                        tag_type=tag_type)

# 6. 初始化训练器
from flair.trainers import ModelTrainer

trainer = ModelTrainer(tagger, corpus)

# 7. 运行训练
trainer.train('resources/taggers/pos-english',
              train_with_dev=True,
              max_epochs=150)

📄 引用

使用此模型时，请引用以下论文：

@inproceedings{akbik2018coling,
  title={Contextual String Embeddings for Sequence Labeling},
  author={Akbik, Alan and Blythe, Duncan and Vollgraf, Roland},
  booktitle = {{COLING} 2018, 27th International Conference on Computational Linguistics},
  pages     = {1638--1649},
  year      = {2018}
}