Umberto-wikipedia-uncased-v1开源意大利语语言模型 - 适用多类自然语言处理任务

首页

Umberto Wikipedia Uncased V1

由 Musixmatch 开发

UmBERTo是基于Roberta架构的意大利语语言模型，采用SentencePiece和全词掩码技术训练，适用于多种自然语言处理任务。

大型语言模型

Transformers

其他#意大利语处理 #全词掩码 #命名实体识别

下载量 1,079

发布时间 : 3/2/2022

模型简介

该模型是基于Roberta架构的意大利语预训练语言模型，专门针对意大利语维基百科语料库进行训练，适用于命名实体识别、词性标注等下游任务。

模型特点

全词掩码技术

采用全词掩码(Whole Word Masking)技术进行预训练，提高了模型对完整词汇的理解能力。

SentencePiece分词

使用SentencePiece作为分词器，具有32K的词汇量，能有效处理意大利语文本。

维基百科语料训练

专门在意大利语维基百科语料库上训练，对意大利语文本有良好的理解能力。

模型能力

意大利语文本理解

命名实体识别

词性标注

掩码词汇预测

使用案例

自然语言处理

命名实体识别

识别意大利语文本中的人名、地名等实体

在ICAB-EvalITA07数据集上F1分数达86.240，WikiNER-ITA数据集上达90.483

词性标注

为意大利语文本中的词汇标注词性

在UD_Italian-ISDT数据集上准确率达98.717%

文本补全

预测句子中被掩码的词汇

🚀 UmBERTo Wikipedia Uncased

UmBERTo是一个基于Roberta的语言模型，在大型意大利语语料库上进行训练，并采用了两种创新方法：SentencePiece和全词掩码（Whole Word Masking）。现在可在 github.com/huggingface/transformers 获取。

Marco Lodola, Monument to Umberto Eco, Alessandria 2019

🚀 快速开始

你可以按照以下步骤快速使用UmBERTo Wikipedia Uncased模型。

✨ 主要特性

基于Roberta架构，在大型意大利语语料库上训练。
采用SentencePiece和全词掩码（Whole Word Masking）两种创新方法。

📦 安装指南

文档未提及安装步骤，可参考Hugging Face Transformers库的安装方式来使用该模型。

💻 使用示例

基础用法

import torch
from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("Musixmatch/umberto-wikipedia-uncased-v1")
umberto = AutoModel.from_pretrained("Musixmatch/umberto-wikipedia-uncased-v1")

encoded_input = tokenizer.encode("Umberto Eco è stato un grande scrittore")
input_ids = torch.tensor(encoded_input).unsqueeze(0)  # Batch size 1
outputs = umberto(input_ids)
last_hidden_states = outputs[0]  # The last hidden-state is the first element of the output

高级用法

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="Musixmatch/umberto-wikipedia-uncased-v1",
    tokenizer="Musixmatch/umberto-wikipedia-uncased-v1"
)

result = fill_mask("Umberto Eco è <mask> un grande scrittore")
# {'sequence': '<s> umberto eco è stato un grande scrittore</s>', 'score': 0.5784581303596497, 'token': 361}
# {'sequence': '<s> umberto eco è anche un grande scrittore</s>', 'score': 0.33813193440437317, 'token': 269}
# {'sequence': '<s> umberto eco è considerato un grande scrittore</s>', 'score': 0.027196012437343597, 'token': 3236}
# {'sequence': '<s> umberto eco è diventato un grande scrittore</s>', 'score': 0.013716378249228, 'token': 5742}
# {'sequence': '<s> umberto eco è inoltre un grande scrittore</s>', 'score': 0.010662357322871685, 'token': 1030}

📚 详细文档

数据集

UmBERTo-Wikipedia-Uncased训练是在一个相对较小的语料库（约7GB）上进行的，该语料库从 Wikipedia-ITA 中提取。

预训练模型

属性	详情
模型类型	`umberto-wikipedia-uncased-v1`
全词掩码（WWM）	YES
是否区分大小写	YES
分词器	SPM
词表大小	32K
训练步数	100k
下载链接	Link

该模型使用 SentencePiece 和全词掩码进行训练。

下游任务

这些结果是关于umberto-wikipedia-uncased模型的。所有详细信息可在 Umberto 官方页面查看。

命名实体识别（NER）

数据集	F1	精确率	召回率	准确率
ICAB-EvalITA07	86.240	85.939	86.544	98.534
WikiNER-ITA	90.483	90.328	90.638	98.661

词性标注（POS）

数据集	F1	精确率	召回率	准确率
UD_Italian-ISDT	98.563	98.508	98.618	98.717
UD_Italian-ParTUT	97.810	97.835	97.784	98.060

📄 许可证

所有原始数据集都是公开可用的，或者是在所有者授权下发布的。这些数据集都在CC0或CCBY许可证下发布。

UD Italian-ISDT数据集 Github
UD Italian-ParTUT数据集 Github
I-CAB（意大利语内容标注库），EvalITA 页面
WIKINER 页面 , 论文

@inproceedings {magnini2006annotazione,
    title = {Annotazione di contenuti concettuali in un corpus italiano: I - CAB},
    author = {Magnini,Bernardo and Cappelli,Amedeo and Pianta,Emanuele and Speranza,Manuela and Bartalesi Lenzi,V and Sprugnoli,Rachele and Romano,Lorenza and Girardi,Christian and Negri,Matteo},
    booktitle = {Proc.of SILFI 2006},
    year = {2006}
}
@inproceedings {magnini2006cab,
    title = {I - CAB: the Italian Content Annotation Bank.},
    author = {Magnini,Bernardo and Pianta,Emanuele and Girardi,Christian and Negri,Matteo and Romano,Lorenza and Speranza,Manuela and Lenzi,Valentina Bartalesi and Sprugnoli,Rachele},
    booktitle = {LREC},
    pages = {963--968},
    year = {2006},
    organization = {Citeseer}
}