language:
- 乌兹别克语
tags:
- 变压器模型
- MIT许可
- RoBERTa架构
- 乌兹RoBERTa
- 乌兹别克文
- 西里尔字母
- 拉丁字母
license: Apache-2.0协议
widget:
- text: "由于强降雨,多个地区观测到强烈泥石流。"
example_title: "拉丁字母示例"
- text: "阿里舍尔·纳沃伊是伟大的乌兹别克及其他突厥民族、思想家和政治家。"
example_title: "西里尔字母示例"
乌兹RoBERTa模型
预训练的乌兹别克语(西里尔与拉丁字母)掩码语言建模及句子预测模型。
使用方法
可直接通过pipeline调用该模型进行掩码预测:
from transformers import pipeline
unmasker = pipeline('fill-mask', model='rifkat/uztext-3Gb-BPE-Roberta')
unmasker("阿里舍尔·纳沃伊是伟大的乌兹别克及其他突厥民族[mask]、思想家和政治家。")
[{'score': 0.5902208685874939,
'sequence': '阿里舍尔·纳沃伊是伟大的乌兹别克及其他突厥民族诗人、思想家和政治家。',
'token': 28809,
'token_str': '诗人'},
{'score': 0.08303504437208176,
'sequence': '阿里舍尔·纳沃伊是伟大的乌兹别克及其他突厥民族导师、思想家和政治家。',
'token': 17484,
'token_str': '导师'},
{'score': 0.035882771015167236,
'sequence': '阿里舍尔·纳沃伊是伟大的乌兹别克及其他突厥民族领袖、思想家和政治家。',
'token': 34552,
'token_str': '领袖'},
{'score': 0.03447483479976654,
'sequence': '阿里舍尔·纳沃伊是伟大的乌兹别克及其他突厥民族奠基人、思想家和政治家。',
'token': 14034,
'token_str': '奠基人'},
{'score': 0.03044942207634449,
'sequence': '阿里舍尔·纳沃伊是伟大的乌兹别克及其他突厥民族友人、思想家和政治家。',
'token': 28100,
'token_str': '友人'}]
unmasker("由于强降雨,多个[mask]地区观测到强烈泥石流。")
[{'score': 0.410250186920166,
'sequence': '由于强降雨,多个区域观测到强烈泥石流。',
'token': 11009,
'token_str': '区域'},
{'score': 0.2023029774427414,
'sequence': '由于强降雨,多个县区观测到强烈泥石流。',
'token': 35370,
'token_str': '县区'},
{'score': 0.129830002784729,
'sequence': '由于强降雨,多个省份观测到强烈泥石流。',
'token': 33584,
'token_str': '省份'},
{'score': 0.04539087787270546,
'sequence': '由于强降雨,多个国家观测到强烈泥石流。',
'token': 19315,
'token_str': '国家'},
{'score': 0.0369882769882679,
'sequence': '由于强降雨,多个地点观测到强烈泥石流。',
'token': 5853,
'token_str': '地点'}]
训练数据
本模型基于约200万篇新闻文章(约3GB)进行预训练。
@misc {rifkat_davronov_2022,
author = { {阿迪洛娃·法蒂玛, 里夫卡特·达夫罗诺夫, 萨玛里丁·库什穆拉托夫, 鲁兹马特·萨法罗夫} },
title = { uztext-3Gb-BPE-Roberta (版本0c87494) },
year = 2022,
url = { https://huggingface.co/rifkat/uztext-3Gb-BPE-Roberta },
doi = { 10.57967/hf/0140 },
publisher = { Hugging Face }
}