🚀 UmBERTo Commoncrawl Cased
UmBERTo是一个基于Roberta的语言模型,在大型意大利语语料库上进行训练,并采用了两种创新方法:SentencePiece和全词掩码(Whole Word Masking)。现在可在github.com/huggingface/transformers获取。
Marco Lodola, Monument to Umberto Eco, Alessandria 2019
📦 安装指南
此部分原文档未提及具体安装步骤,故跳过。
✨ 主要特性
- 基于Roberta架构,在大型意大利语语料库上训练。
- 采用SentencePiece和全词掩码(Whole Word Masking)两种创新方法。
📚 详细文档
数据集
UmBERTo-Commoncrawl-Cased使用OSCAR的意大利语子语料库作为语言模型的训练集。我们使用了意大利语语料库的去重版本,该版本包含70GB的纯文本数据、2.1亿个句子和110亿个单词。为了用于自然语言处理研究,这些句子在行级别进行了过滤和打乱。
预训练模型
属性 |
详情 |
模型类型 |
umberto-commoncrawl-cased-v1 |
全词掩码(WWM) |
是 |
是否区分大小写 |
是 |
分词器 |
SPM |
词汇表大小 |
32K |
训练步数 |
125k |
下载链接 |
Link |
该模型使用SentencePiece和全词掩码(Whole Word Masking)进行训练。
下游任务
这些结果是关于umberto-commoncrawl-cased模型的。所有详细信息可在Umberto官方页面查看。
命名实体识别(NER)
数据集 |
F1值 |
精确率 |
召回率 |
准确率 |
ICAB-EvalITA07 |
87.565 |
86.596 |
88.556 |
98.690 |
WikiNER-ITA |
92.531 |
92.509 |
92.553 |
99.136 |
词性标注(POS)
数据集 |
F1值 |
精确率 |
召回率 |
准确率 |
UD_Italian-ISDT |
98.870 |
98.861 |
98.879 |
98.977 |
UD_Italian-ParTUT |
98.786 |
98.812 |
98.760 |
98.903 |
💻 使用示例
基础用法
import torch
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("Musixmatch/umberto-commoncrawl-cased-v1")
umberto = AutoModel.from_pretrained("Musixmatch/umberto-commoncrawl-cased-v1")
encoded_input = tokenizer.encode("Umberto Eco è stato un grande scrittore")
input_ids = torch.tensor(encoded_input).unsqueeze(0)
outputs = umberto(input_ids)
last_hidden_states = outputs[0]
高级用法
from transformers import pipeline
fill_mask = pipeline(
"fill-mask",
model="Musixmatch/umberto-commoncrawl-cased-v1",
tokenizer="Musixmatch/umberto-commoncrawl-cased-v1"
)
result = fill_mask("Umberto Eco è <mask> un grande scrittore")
📄 许可证
所有原始数据集都是公开可用的,或者是在所有者授权下发布的。这些数据集均在CC0或CCBY许可证下发布。
- UD Italian-ISDT数据集 Github
- UD Italian-ParTUT数据集 Github
- I-CAB(意大利语内容标注库),EvalITA 页面
- WIKINER 页面,论文
@inproceedings {magnini2006annotazione,
title = {Annotazione di contenuti concettuali in un corpus italiano: I - CAB},
author = {Magnini,Bernardo and Cappelli,Amedeo and Pianta,Emanuele and Speranza,Manuela and Bartalesi Lenzi,V and Sprugnoli,Rachele and Romano,Lorenza and Girardi,Christian and Negri,Matteo},
booktitle = {Proc.of SILFI 2006},
year = {2006}
}
@inproceedings {magnini2006cab,
title = {I - CAB: the Italian Content Annotation Bank.},
author = {Magnini,Bernardo and Pianta,Emanuele and Girardi,Christian and Negri,Matteo and Romano,Lorenza and Speranza,Manuela and Lenzi,Valentina Bartalesi and Sprugnoli,Rachele},
booktitle = {LREC},
pages = {963--968},
year = {2006},
organization = {Citeseer}
}
👥 作者
🏢 关于Musixmatch AI
我们在musixmatch进行机器学习和人工智能研究。
在Twitter Github上关注我们。