language: es
thumbnail: https://i.imgur.com/DUlT077.jpg
widget:
RuPERTa:西班牙语版RoBERTa 🎃
RuPERTa-base(无大小写区分)是基于大型西班牙语语料库的无大小写版本训练的RoBERTa模型。RoBERTa改进了BERT的预训练过程,包括更长时间的训练、更大的批次处理更多数据;移除了下一句预测目标;在更长的序列上训练;以及动态调整应用于训练数据的掩码模式。其架构与roberta-base
相同:
roberta.base
:使用BERT-base架构的RoBERTa,参数规模为125M
性能基准 �
开发中(持续更新)🚧
模型实战 🔨
词性标注与命名实体识别应用 🏷
import torch
from transformers import AutoModelForTokenClassification, AutoTokenizer
id2label = {
"0": "B-LOC",
"1": "B-MISC",
"2": "B-ORG",
"3": "B-PER",
"4": "I-LOC",
"5": "I-MISC",
"6": "I-ORG",
"7": "I-PER",
"8": "O"
}
tokenizer = AutoTokenizer.from_pretrained('mrm8488/RuPERTa-base-finetuned-ner')
model = AutoModelForTokenClassification.from_pretrained('mrm8488/RuPERTa-base-finetuned-ner')
text ="朱利安,HF公司的CEO,出生于法国。"
input_ids = torch.tensor(tokenizer.encode(text)).unsqueeze(0)
outputs = model(input_ids)
last_hidden_states = outputs[0]
for m in last_hidden_states:
for index, n in enumerate(m):
if(index > 0 and index <= len(text.split(" "))):
print(text.split(" ")[index-1] + ": " + id2label[str(torch.argmax(n).item())])
'''
朱利安,: I-PER
CEO: O
de: O
HF公司,: B-ORG
出生于: I-PER
法国。: I-LOC
'''
词性标注只需更改id2label
字典并将模型路径替换为mrm8488/RuPERTa-base-finetuned-pos
使用pipelines
快速进行语言模型测试 🧪
from transformers import AutoModelWithLMHead, AutoTokenizer
model = AutoModelWithLMHead.from_pretrained('mrm8488/RuPERTa-base')
tokenizer = AutoTokenizer.from_pretrained("mrm8488/RuPERTa-base", do_lower_case=True)
from transformers import pipeline
pipeline_fill_mask = pipeline("fill-mask", model=model, tokenizer=tokenizer)
pipeline_fill_mask("西班牙是欧盟中一个非常<mask>的国家")
[
{
"score": 0.1814306527376175,
"sequence": "<s> 西班牙是一个在欧盟中非常重要的国家</s>",
"token": 1560
},
{
"score": 0.024842597544193268,
"sequence": "<s> 西班牙是一个在欧盟中非常强大的国家</s>",
"token": 2854
},
{
"score": 0.02473250962793827,
"sequence": "<s> 西班牙是一个在欧盟中非常小的国家</s>",
"token": 2948
},
{
"score": 0.023991240188479424,
"sequence": "<s> 西班牙是一个在欧盟中非常古老的国家</s>",
"token": 5240
},
{
"score": 0.0215945765376091,
"sequence": "<s> 西班牙是一个在欧盟中非常受欢迎的国家</s>",
"token": 5782
}
]
致谢
感谢🤗/transformers团队解答我的疑问,以及谷歌通过TensorFlow研究云计划给予的帮助。
由Manuel Romero/@mrm8488创建
于西班牙倾心制作 ❤