🚀 RoBERTa土耳其语模型
RoBERTaTurk是一个基于土耳其语的预训练模型,它在土耳其语维基百科、土耳其语OSCAR语料库以及一些新闻网站的数据上进行了预训练,能够为土耳其语自然语言处理任务提供强大支持。
🚀 快速开始
加载模型
你可以使用以下代码加载transformers库和本模型:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("burakaytan/roberta-base-turkish-uncased")
model = AutoModelForMaskedLM.from_pretrained("burakaytan/roberta-base-turkish-uncased")
掩码填充任务示例
以下是使用该模型进行掩码填充任务的示例代码:
from transformers import pipeline
fill_mask = pipeline(
"fill-mask",
model="burakaytan/roberta-base-turkish-uncased",
tokenizer="burakaytan/roberta-base-turkish-uncased"
)
fill_mask("iki ülke arasında <mask> başladı")
[{'sequence': 'iki ülke arasında savaş başladı',
'score': 0.3013845384120941,
'token': 1359,
'token_str': ' savaş'},
{'sequence': 'iki ülke arasında müzakereler başladı',
'score': 0.1058429479598999,
'token': 30439,
'token_str': ' müzakereler'},
{'sequence': 'iki ülke arasında görüşmeler başladı',
'score': 0.07718811184167862,
'token': 4916,
'token_str': ' görüşmeler'},
{'sequence': 'iki ülke arasında kriz başladı',
'score': 0.07174749672412872,
'token': 3908,
'token_str': ' kriz'},
{'sequence': 'iki ülke arasında çatışmalar başladı',
'score': 0.05678590387105942,
'token': 19346,
'token_str': ' çatışmalar'}]
📚 详细文档
模型描述
这是一个土耳其语的RoBERTa基础模型,在土耳其语维基百科、土耳其语OSCAR语料库和一些新闻网站上进行了预训练。最终的训练语料库大小为38GB,包含329,720,508个句子。
感谢Turkcell公司,我们得以在配备Intel(R) Xeon(R) Gold 6230R CPU @ 2.10GHz、256GB内存、2 x GV100GL [Tesla V100 PCIe 32GB] GPU的环境中对该模型进行了250万步的训练。
📄 许可证
本项目采用MIT许可证。
📚 引用信息
若要引用此模型,请使用以下BibTeX格式:
@inproceedings{aytan2022comparison,
title={Comparison of Transformer-Based Models Trained in Turkish and Different Languages on Turkish Natural Language Processing Problems},
author={Aytan, Burak and Sakar, C Okan},
booktitle={2022 30th Signal Processing and Communications Applications Conference (SIU)},
pages={1--4},
year={2022},
organization={IEEE}
}