ja_core_news_lg开源日语处理模型 - 免费实现分词、词性标注等功能

首页

Ja Core News Lg

由 spacy 开发

spaCy提供的针对CPU优化的日语处理流程，包含分词、词性标注、依存句法分析、命名实体识别等功能

序列标注日语#日语文本处理 #高精度词性标注 #依存句法分析

下载量 53

发布时间 : 3/2/2022

模型简介

这是一个日语自然语言处理模型，基于Universal Dependencies日语语料库训练，支持词性标注、依存句法分析、命名实体识别等任务。模型针对CPU使用进行了优化，适合处理日语文本分析任务。

模型特点

CPU优化

模型针对CPU使用进行了专门优化，适合在没有GPU的环境中运行

全面NLP功能

提供从基础分词到高级命名实体识别的完整自然语言处理功能

高质量词向量

包含480,443个300维的词向量，基于chiVe词嵌入模型

模型能力

日语分词

词性标注

命名实体识别

依存句法分析

词形还原

句子分割

使用案例

文本分析

日语新闻分析

分析日语新闻文本，提取实体、关系和事件

NER F值达到71.19%

日语文本预处理

为机器学习任务准备日语文本数据

词性标注准确率达97.42%

语言学习

日语语法分析

帮助学习者分析日语句子结构

依存句法分析LAS得分90.90

🚀 ja_core_news_lg 日语语言模型

ja_core_news_lg 是一款针对 CPU 进行优化的日语处理管道，它包含多个组件，可用于词性标注、命名实体识别等多种自然语言处理任务。

📚 详细文档

模型详情

详情请参考：https://spacy.io/models/ja#ja_core_news_lg

该日语管道针对 CPU 进行了优化，其组件包括：tok2vec、morphologizer、parser、senter、ner、attribute_ruler。

属性	详情
模型名称	`ja_core_news_lg`
版本	`3.7.0`
spaCy 版本要求	`>=3.7.0,<3.8.0`
默认处理流程	`tok2vec`, `morphologizer`, `parser`, `attribute_ruler`, `ner`
组件	`tok2vec`, `morphologizer`, `parser`, `senter`, `attribute_ruler`, `ner`
词向量	480443 个键，480443 个唯一向量（300 维）
数据来源	UD Japanese GSD v2.8 (Omura, Mai; Miyao, Yusuke; Kanayama, Hiroshi; Matsuda, Hiroshi; Wakasa, Aya; Yamashita, Kayo; Asahara, Masayuki; Tanaka, Takaaki; Murawaki, Yugo; Matsumoto, Yuji; Mori, Shinsuke; Uematsu, Sumire; McDonald, Ryan; Nivre, Joakim; Zeman, Daniel) UD Japanese GSD v2.8 NER (Megagon Labs Tokyo) chiVe: Japanese Word Embedding with Sudachi & NWJC (chive-1.1-mc90-500k) (Works Applications)
许可证	`CC BY-SA 4.0`
作者	Explosion

标签方案

查看标签方案（3 个组件共 65 个标签）

组件	标签
`morphologizer`	`POS=NOUN`, `POS=ADP`, `POS=VERB`, `POS=SCONJ`, `POS=AUX`, `POS=PUNCT`, `POS=PART`, `POS=DET`, `POS=NUM`, `POS=ADV`, `POS=PRON`, `POS=ADJ`, `POS=PROPN`, `POS=CCONJ`, `POS=SYM`, `POS=NOUN\|Polarity=Neg`, `POS=AUX\|Polarity=Neg`, `POS=SPACE`, `POS=INTJ`, `POS=SCONJ\|Polarity=Neg`
`parser`	`ROOT`, `acl`, `advcl`, `advmod`, `amod`, `aux`, `case`, `cc`, `ccomp`, `compound`, `cop`, `csubj`, `dep`, `det`, `dislocated`, `fixed`, `mark`, `nmod`, `nsubj`, `nummod`, `obj`, `obl`, `punct`
`ner`	`CARDINAL`, `DATE`, `EVENT`, `FAC`, `GPE`, `LANGUAGE`, `LAW`, `LOC`, `MONEY`, `MOVEMENT`, `NORP`, `ORDINAL`, `ORG`, `PERCENT`, `PERSON`, `PET_NAME`, `PHONE`, `PRODUCT`, `QUANTITY`, `TIME`, `TITLE_AFFIX`, `WORK_OF_ART`

准确率

类型	得分
`TOKEN_ACC`	99.37
`TOKEN_P`	97.64
`TOKEN_R`	97.88
`TOKEN_F`	97.76
`POS_ACC`	97.42
`MORPH_ACC`	0.00
`MORPH_MICRO_P`	34.01
`MORPH_MICRO_R`	98.04
`MORPH_MICRO_F`	50.51
`SENTS_P`	95.56
`SENTS_R`	97.63
`SENTS_F`	96.59
`DEP_UAS`	92.12
`DEP_LAS`	90.90
`TAG_ACC`	97.13
`LEMMA_ACC`	96.70
`ENTS_P`	73.88
`ENTS_R`	68.68
`ENTS_F`	71.19

模型评估结果

任务	指标	值
NER	NER 精确率	0.7388362652
	NER 召回率	0.6867924528
	NER F 分数	0.7118644068
TAG	TAG (XPOS) 准确率	0.9713282143
POS	POS (UPOS) 准确率	0.9742268041
MORPH	Morph (UFeats) 准确率	0.0
LEMMA	词形还原准确率	0.9670499959
UNLABELED_DEPENDENCIES	无标签依存关系得分 (UAS)	0.9212481426
LABELED_DEPENDENCIES	有标签依存关系得分 (LAS)	0.9089518668
SENTS	句子 F 分数	0.9658536585