DaCy是一个丹麦语处理框架,拥有最先进的流水线以及分析丹麦语流水线的功能。
下载量 53
发布时间 : 3/2/2022
模型介绍
内容详情
替代品
模型简介
DaCy最大的流水线在丹麦依存树库上实现了丹麦语词性标注和依存句法分析的最先进性能,同时在命名实体识别、命名实体消歧和共指消解方面也表现出色。
模型特点
多任务处理能力
支持词性标注、依存句法分析、命名实体识别、共指消解等多种NLP任务
高性能
在丹麦依存树库上实现了丹麦语处理的最先进性能
全面的NLP功能
包含从基础词性标注到高级共指消解的全套NLP处理能力
模型能力
词性标注
形态分析
词形还原
依存句法分析
命名实体识别
共指消解
命名实体链接
命名实体消歧
使用案例
文本分析
丹麦语文本处理
对丹麦语文本进行全面的语言分析
准确率高达98.57%的词性标注和88.33%的依存句法分析
信息提取
命名实体识别
从丹麦语文本中识别命名实体
F1值达到85.82%
标签:
- spacy
- dacy
- 丹麦语
- 词符分类
- 词性标注
- 形态分析
- 词形还原
- 依存句法分析
- 命名实体识别
- 共指消解
- 命名实体链接
- 命名实体消歧 语言:
- da 许可证: apache-2.0 模型索引:
- 名称: da_dacy_medium_trf-0.2.0
结果:
- 任务:
名称: NER
类型: token-classification
指标:
- 名称: NER精确率 类型: precision 值: 0.8708487085
- 名称: NER召回率 类型: recall 值: 0.8458781362
- 名称: NER F值 类型: f_score 值: 0.8581818182 数据集: 名称: DaNE 分割: test 类型: dane
- 任务:
名称: TAG
类型: token-classification
指标:
- 名称: TAG (XPOS)准确率 类型: accuracy 值: 0.9847290149 数据集: 名称: UD Danish DDT 分割: test 类型: universal_dependencies 配置: da_ddt
- 任务:
名称: POS
类型: token-classification
指标:
- 名称: POS (UPOS)准确率 类型: accuracy 值: 0.985677928 数据集: 名称: UD Danish DDT 分割: test 类型: universal_dependencies 配置: da_ddt
- 任务:
名称: MORPH
类型: token-classification
指标:
- 名称: 形态 (UFeats)准确率 类型: accuracy 值: 0.9814371257 数据集: 名称: UD Danish DDT 分割: test 类型: universal_dependencies 配置: da_ddt
- 任务:
名称: LEMMA
类型: token-classification
指标:
- 名称: 词形还原准确率 类型: accuracy 值: 0.9419805438 数据集: 名称: UD Danish DDT 分割: test 类型: universal_dependencies 配置: da_ddt
- 任务:
名称: 无标记依存关系
类型: token-classification
指标:
- 名称: 无标记依存分数 (UAS) 类型: f_score 值: 0.9083920564 数据集: 名称: UD Danish DDT 分割: test 类型: universal_dependencies 配置: da_ddt
- 任务:
名称: 有标记依存关系
类型: token-classification
指标:
- 名称: 有标记依存分数 (LAS) 类型: f_score 值: 0.883349834 数据集: 名称: UD Danish DDT 分割: test 类型: universal_dependencies 配置: da_ddt
- 任务:
名称: 句子
类型: token-classification
指标:
- 名称: 句子F值 类型: f_score 值: 0.9885462555 数据集: 名称: UD Danish DDT 分割: test 类型: universal_dependencies 配置: da_ddt
- 任务:
名称: 共指消解
类型: coreference-resolution
指标:
- 名称: LEA 类型: f_score 值: 0.4118366346 数据集: 名称: DaCoref 类型: alexandrainst/dacoref 分割: custom
- 任务:
名称: 共指消解
类型: coreference-resolution
指标:
- 名称: 命名实体链接精确率 类型: precision 值: 0.9923076923
- 名称: 命名实体链接召回率 类型: recall 值: 0.671875
- 名称: 命名实体链接F值 类型: f_score 值: 0.801242236 数据集: 名称: DaNED 类型: named-entity-linking 分割: custom 库名称: spacy 数据集:
- 任务:
名称: NER
类型: token-classification
指标:
- universal_dependencies
- dane
- alexandrainst/dacoref 指标:
- accuracy
DaCy medium
DaCy是一个丹麦语处理框架,拥有最先进的流水线以及分析丹麦语流水线的功能。DaCy最大的流水线在丹麦依存树库上实现了丹麦语词性标注和依存句法分析的最先进性能,同时在命名实体识别、命名实体消歧和共指消解方面也表现出色。如需了解更多,请查看DaCy仓库,获取关于如何使用DaCy和复现结果的资料。DaCy还包含使用指南以及针对丹麦NLP流水线偏见和鲁棒性的行为测试。
特性 | 描述 |
---|---|
名称 | da_dacy_medium_trf |
版本 | 0.2.0 |
spaCy | >=3.5.2,<3.6.0 |
默认流水线 | transformer , tagger , morphologizer , trainable_lemmatizer , parser , ner , coref , span_resolver , span_cleaner , entity_linker |
组件 | transformer , tagger , morphologizer , trainable_lemmatizer , parser , ner , coref , span_resolver , span_cleaner , entity_linker |
向量 | 0键, 0唯一向量 (0维度) |
来源 | UD Danish DDT v2.11 (Johannsen, Anders; Martínez Alonso, Héctor; Plank, Barbara) DaNE (Rasmus Hvingelby, Amalie B. Pauli, Maria Barrett, Christina Rosted, Lasse M. Lidegaard, Anders Søgaard) DaCoref (Buch-Kromann, Matthias) DaNED (Barrett, M. J., Lam, H., Wu, M., Lacroix, O., Plank, B., & Søgaard, A.) vesteinn/DanskBERT (Vésteinn Snæbjarnarson) |
许可证 | Apache-2.0 |
作者 | Kenneth Enevoldsen |
标签方案
查看标签方案 (4个组件的211个标签)
组件 | 标签 |
---|---|
tagger |
ADJ , ADP , ADV , AUX , CCONJ , DET , INTJ , NOUN , NUM , PART , PRON , PROPN , PUNCT , SCONJ , SYM , VERB , X |
morphologizer |
AdpType=Prep|POS=ADP , Definite=Ind|Gender=Com|Number=Sing|POS=NOUN , Mood=Ind|POS=AUX|Tense=Pres|VerbForm=Fin|Voice=Act , POS=PROPN , Definite=Ind|Number=Sing|POS=VERB|Tense=Past|VerbForm=Part , Definite=Def|Gender=Neut|Number=Sing|POS=NOUN , POS=SCONJ , Definite=Def|Gender=Com|Number=Sing|POS=NOUN , Mood=Ind|POS=VERB|Tense=Pres|VerbForm=Fin|Voice=Act , POS=ADV , Number=Plur|POS=DET|PronType=Dem , Degree=Pos|Number=Plur|POS=ADJ , Definite=Ind|Gender=Com|Number=Plur|POS=NOUN , POS=PUNCT , NumType=Ord|POS=ADJ , POS=CCONJ , Definite=Ind|Gender=Neut|Number=Plur|POS=NOUN , POS=VERB|VerbForm=Inf|Voice=Act , Case=Acc|Gender=Neut|Number=Sing|POS=PRON|Person=3|PronType=Prs , Degree=Sup|POS=ADV , Degree=Pos|POS=ADV , Gender=Com|Number=Sing|POS=DET|PronType=Ind , Number=Plur|POS=DET|PronType=Ind , POS=ADP , POS=ADV|PartType=Inf , Case=Nom|Gender=Com|Number=Sing|POS=PRON|Person=3|PronType=Prs , Mood=Ind|POS=AUX|Tense=Past|VerbForm=Fin|Voice=Act , Definite=Def|Degree=Pos|Number=Sing|POS=ADJ , Number[psor]=Sing|POS=DET|Person=3|Poss=Yes|PronType=Prs , Mood=Ind|POS=VERB|Tense=Past|VerbForm=Fin|Voice=Act , POS=ADP|PartType=Inf , Definite=Ind|Degree=Pos|Gender=Com|Number=Sing|POS=ADJ , NumType=Card|POS=NUM , Degree=Pos|POS=ADJ , Definite=Ind|Number=Sing|POS=AUX|Tense=Past|VerbForm=Part , POS=PART|PartType=Inf , Case=Acc|POS=PRON|Person=3|PronType=Prs|Reflex=Yes , Definite=Def|Gender=Com|Number=Plur|POS=NOUN , Definite=Ind|Gender=Neut|Number=Sing|POS=NOUN , Number[psor]=Plur|POS=DET|Person=3|Poss=Yes|PronType=Prs , POS=VERB|Tense=Pres|VerbForm=Part , Case=Nom|Number=Plur|POS=PRON|Person=3|PronType=Prs , Case=Gen|Definite=Def|Gender=Com|Number=Sing|POS=NOUN , Definite=Def|Degree=Sup|Number=Plur|POS=ADJ , Case=Acc|Number=Plur|POS=PRON|Person=3|PronType=Prs , POS=AUX|VerbForm=Inf|Voice=Act , Definite=Ind|Degree=Pos|Gender=Neut|Number=Sing|POS=ADJ , Definite=Ind|Degree=Cmp|Number=Sing|POS=ADJ , Degree=Cmp|POS=ADJ , POS=PRON|PartType=Inf , Definite=Ind|Degree=Pos|Number=Sing|POS=ADJ , Case=Nom|Gender=Com|POS=PRON|PronType=Ind , Number=Plur|POS=PRON|PronType=Ind , POS=INTJ , Gender=Com|Number=Sing|POS=DET|PronType=Dem , Case=Gen|Number=Plur|POS=DET|PronType=Ind , Mood=Ind|POS=VERB|Tense=Pres|VerbForm=Fin|Voice=Pass , Definite=Def|Gender=Neut|Number=Plur|POS=NOUN , Degree=Cmp|POS=ADV , Number=Plur|Number[psor]=Plur|POS=PRON|Person=1|Poss=Yes|PronType=Prs|Style=Form , Case=Acc|Gender=Com|Number=Sing|POS=PRON|Person=3|PronType=Prs , Number=Plur|Number[psor]=Sing|POS=DET|Person=3|Poss=Yes|PronType=Prs|Reflex=Yes , Case=Gen|POS=PROPN , Gender=Neut|Number=Sing|POS=PRON|PronType=Ind , Number=Plur|POS=VERB|Tense=Past|VerbForm=Part , Gender=Neut|Number=Sing|Number[psor]=Sing|POS=DET|Person=3|Poss=Yes|PronType=Prs|Reflex=Yes , Case=Acc|Gender=Com|Number=Sing|POS=PRON|Person=1|PronType=Prs , Definite=Def|Degree=Sup|POS=ADJ , Gender=Neut|Number=Sing|POS=DET|PronType=Ind , Case=Gen|Definite=Ind|Gender=Neut|Number=Sing|POS=NOUN , Gender=Neut|Number=Sing|POS=DET|PronType=Dem , Definite=Def|Number=Sing|POS=VERB|Tense=Past|VerbForm=Part , POS=PRON|PronType=Dem , Degree=Pos|Gender=Com|Number=Sing|POS=ADJ , Number=Plur|POS=NUM , POS=VERB|VerbForm=Inf|Voice=Pass , Definite=Def|Degree=Sup|Number=Sing|POS=ADJ , Number=Sing|POS=PRON|PronType=Int,Rel , Case=Nom|Gender=Com|Number=Sing|POS=PRON|Person=1|PronType=Prs , Gender=Neut|Number=Sing|Number[psor]=Sing|POS=DET|Person=1|Poss=Yes|PronType=Prs , Gender=Com|Number=Sing|Number[psor]=Sing|POS=DET|Person=1|Poss=Yes|PronType=Prs , POS=PRON , Definite=Ind|Number=Sing|POS=NOUN , Definite=Ind|Number=Sing|POS=NUM , Case=Gen|Definite=Ind|Gender=Com|Number=Sing|POS=NOUN , Foreign=Yes|POS=ADV , POS=NOUN , Case=Gen|Definite=Def|Gender=Neut|Number=Sing|POS=NOUN , Gender=Com|Number=Plur|POS=NOUN , Gender=Neut|Number=Sing|POS=PRON|PronType=Int,Rel , Case=Nom|Gender=Com|Number=Plur|POS=PRON|Person=1|PronType=Prs , Number[psor]=Plur|POS=DET|Person=1|Poss=Yes|PronType=Prs , Gender=Com|Number=Sing|POS=PRON|PronType=Ind , Case=Gen|Definite=Ind|Gender=Com|Number=Plur|POS=NOUN , Degree=Pos|Gender=Neut|Number=Sing|POS=ADJ , Degree=Sup|POS=ADJ , Degree=Pos|Number=Sing|POS=ADJ , Mood=Imp|POS=VERB , Case=Nom|Gender=Com|POS=PRON|Person=2|Polite=Form|PronType=Prs , Case=Acc|Gender=Com|POS=PRON|Person=2|Polite=Form|PronType=Prs , POS=X , Case=Gen|Definite=Def|Gender=Com|Number=Plur|POS=NOUN , Number=Plur|POS=PRON|PronType=Dem , Case=Acc|Gender=Com|Number=Plur|POS=PRON|Person=1|PronType=Prs , Number=Plur|POS=PRON|PronType=Int,Rel , Gender=Com|Number=Sing|Number[psor]=Sing|POS=DET|Person=3|Poss=Yes|PronType=Prs|Reflex=Yes , Degree=Cmp|Number=Plur|POS=ADJ , Number=Plur|Number[psor]=Sing|POS=DET|Person=1|Poss=Yes|PronType=Prs , Gender=Com|Number=Sing|Number[psor]=Plur|POS=DET|Person=1|Poss=Yes|PronType=Prs|Style=Form , Case=Nom|Gender=Com|Number=Sing|POS=PRON|Person=2|PronType=Prs , Case=Acc|Gender=Com|Number=Sing|POS=PRON|Person=2|PronType=Prs , Gender=Com|POS=PRON|PronType=Int,Rel , Case=Gen|Degree=Pos|Number=Plur|POS=ADJ , Gender=Neut|Number=Sing|Number[psor]=Sing|POS=PRON|Person=3|Poss=Yes|PronType=Prs|Reflex=Yes , POS=VERB|VerbForm=Ger , Gender=Com|Number=Sing|POS=PRON|PronType=Dem , Case=Gen|POS=PRON|PronType=Int,Rel , Mood=Ind|POS=VERB|Tense=Past|VerbForm=Fin|Voice=Pass , Abbr=Yes|POS=X , Case=Gen|Definite=Ind|Gender=Neut|Number=Plur|POS=NOUN , Gender=Com|Number=Sing|Number[psor]=Sing|POS=DET|Person=2|Poss=Yes|PronType=Prs , Definite=Ind|Number=Plur|POS=NOUN , Foreign=Yes|POS=X , Number=Plur|POS=PRON|PronType=Rcp , Case=Nom|Gender=Com|Number=Plur|POS=PRON|Person=2|PronType=Prs , Case=Gen|Degree=Cmp|POS=ADJ , Case=Gen|Definite=Def|Gender=Neut|Number=Plur|POS=NOUN , Case=Acc|Gender=Com|Number=Plur|POS=PRON|Person=2|PronType=Prs , Gender=Neut|Number=Sing|POS=PRON|PronType=Dem , Number=Plur|Number[psor]=Plur|POS=DET|Person=1|Poss=Yes|PronType=Prs|Style=Form , Gender=Neut|Number=Sing|Number[psor]=Plur|POS=DET|Person=1|Poss=Yes|PronType=Prs|Style=Form , Number=Plur|Number[psor]=Sing|POS=PRON|Person=3|Poss=Yes|PronType=Prs|Reflex=Yes , Number[psor]=Sing|POS=PRON|Person=3|Poss=Yes|PronType=Prs , Case=Gen|Number=Plur|POS=PRON|PronType=Rcp , POS=DET|Person=2|Polite=Form|Poss=Yes|PronType=Prs , POS=SYM , POS=DET|PronType=Dem , Gender=Com|Number=Sing|POS=NUM , Number[psor]=Plur|POS=DET|Person=2|Poss=Yes|PronType=Prs , Case=Gen|Number=Plur|POS=VERB|Tense=Past|VerbForm=Part , Definite=Def|Degree=Abs|POS=ADJ , POS=VERB|Tense=Pres , Definite=Ind|Gender=Neut|Number=Sing|POS=NUM , Degree=Abs|POS=ADV , Case=Gen|Definite=Def|Degree=Pos|Number=Sing|POS=ADJ , Gender=Com|Number=Sing|POS=PRON|PronType=Int,Rel , POS=VERB|Tense=Past|VerbForm=Part , Definite=Ind|Degree=Sup|Number=Sing|POS=ADJ , Gender=Neut|Number=Sing|Number[psor]=Sing|POS=DET|Person=2|Poss=Yes|PronType=Prs , Gender=Com|Number=Sing|Number[psor]=Sing|POS=PRON|Person=1|Poss=Yes|PronType=Prs , Number=Plur|Number[psor]=Sing|POS=DET|Person=2|Poss=Yes|PronType=Prs , Number[psor]=Plur|POS=PRON|Person=3|Poss=Yes|PronType=Prs , Definite=Ind|POS=NOUN , Case=Gen|Gender=Com|Number=Sing|POS=DET|PronType=Ind , Definite=Ind|Gender=Com|Number=Sing|POS=NUM , Definite=Def|Number=Plur|POS=NOUN , Case=Gen|POS=NOUN , POS=AUX|Tense=Pres|VerbForm=Part |
parser |
ROOT , acl:relcl , advcl , advmod , advmod:lmod , amod , appos , aux , case , cc , ccomp , compound:prt , conj , cop , dep , det , expl , fixed , flat , iobj , list , mark , nmod , nmod:poss , nsubj , nummod , obj , obl , obl:lmod , obl:tmod , punct , xcomp |
ner |
LOC , MISC , ORG , PER |
准确率
类型 | 分数 |
---|---|
TOKEN_ACC |
99.92 |
TOKEN_P |
99.70 |
TOKEN_R |
99.77 |
TOKEN_F |
99.74 |
SENTS_P |
98.42 |
SENTS_R |
99.29 |
SENTS_F |
98.85 |
TAG_ACC |
98.47 |
POS_ACC |
98.57 |
MORPH_ACC |
98.14 |
MORPH_MICRO_P |
99.10 |
MORPH_MICRO_R |
98.77 |
MORPH_MICRO_F |
98.93 |
DEP_UAS |
90.84 |
DEP_LAS |
88.33 |
ENTS_P |
87.08 |
ENTS_R |
84.59 |
ENTS_F |
85.82 |
LEMMA_ACC |
94.20 |
COREF_LEA_F1 |
41.18 |
COREF_LEA_PRECISION |
48.89 |
COREF_LEA_RECALL |
35.58 |
NEL_SCORE |
80.12 |
NEL_MICRO_P |
99.23 |
NEL_MICRO_R |
67.19 |
NEL_MICRO_F |
80.12 |
NEL_MACRO_P |
99.39 |
NEL_MACRO_R |
65.99 |
NEL_MACRO_F |
78.15 |
训练
该模型使用spaCy训练,并记录到Weights & Biases。您可以在此处找到所有训练日志here。
Indonesian Roberta Base Posp Tagger
MIT
这是一个基于印尼语RoBERTa模型微调的词性标注模型,在indonlu数据集上训练,用于印尼语文本的词性标注任务。
序列标注
Transformers

其他
I
w11wo
2.2M
7
Bert Base NER
MIT
基于BERT微调的命名实体识别模型,可识别四类实体:地点(LOC)、组织机构(ORG)、人名(PER)和杂项(MISC)
序列标注
英语
B
dslim
1.8M
592
Deid Roberta I2b2
MIT
该模型是基于RoBERTa微调的序列标注模型,用于识别和移除医疗记录中的受保护健康信息(PHI/PII)。
序列标注
Transformers

支持多种语言
D
obi
1.1M
33
Ner English Fast
Flair自带的英文快速4类命名实体识别模型,基于Flair嵌入和LSTM-CRF架构,在CoNLL-03数据集上达到92.92的F1分数。
序列标注
PyTorch
英语
N
flair
978.01k
24
French Camembert Postag Model
基于Camembert-base的法语词性标注模型,使用free-french-treebank数据集训练
序列标注
Transformers

法语
F
gilf
950.03k
9
Xlm Roberta Large Ner Spanish
基于XLM-Roberta-large架构微调的西班牙语命名实体识别模型,在CoNLL-2002数据集上表现优异。
序列标注
Transformers

西班牙语
X
MMG
767.35k
29
Nusabert Ner V1.3
MIT
基于NusaBert-v1.3在印尼语NER任务上微调的命名实体识别模型
序列标注
Transformers

其他
N
cahya
759.09k
3
Ner English Large
Flair框架内置的英文4类大型NER模型,基于文档级XLM-R嵌入和FLERT技术,在CoNLL-03数据集上F1分数达94.36。
序列标注
PyTorch
英语
N
flair
749.04k
44
Punctuate All
MIT
基于xlm-roberta-base微调的多语言标点符号预测模型,支持12种欧洲语言的标点符号自动补全
序列标注
Transformers

P
kredor
728.70k
20
Xlm Roberta Ner Japanese
MIT
基于xlm-roberta-base微调的日语命名实体识别模型
序列标注
Transformers

支持多种语言
X
tsmatz
630.71k
25
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文