uztext-3Gb-BPE-Roberta开源模型 - 支持乌兹别克语预训练及句子预测

首页

Uztext 3Gb BPE Roberta

由 rifkat 开发

预训练的乌兹别克语（西里尔与拉丁字母）掩码语言建模及句子预测模型

大型语言模型

Transformers

其他开源协议:Apache-2.0 #乌兹别克语掩码预测 #双语字母支持 #新闻文本优化

下载量 25

发布时间 : 3/2/2022

模型简介

基于RoBERTa架构的乌兹别克语预训练模型，支持西里尔和拉丁字母文本处理，主要用于掩码语言建模和句子预测任务。

模型特点

双字母支持

同时支持乌兹别克语的西里尔字母和拉丁字母文本处理

大规模预训练

基于约3GB的乌兹别克语新闻数据进行预训练

掩码预测能力

能够准确预测文本中的掩码位置内容

模型能力

乌兹别克语文本理解

掩码语言建模

句子预测

西里尔字母处理

拉丁字母处理

使用案例

文本补全

历史人物描述补全

补全关于历史人物的描述文本

准确预测'阿里舍尔·纳沃伊是伟大的乌兹别克及其他突厥民族诗人、思想家和政治家'中的'诗人'

新闻事件描述

自然灾害报道补全

补全自然灾害报道中的关键信息

准确预测'由于强降雨，多个区域观测到强烈泥石流'中的'区域'

🚀 UzRoBerta模型

UzRoBerta是一个预训练模型，支持乌兹别克语的西里尔文和拉丁文脚本。它可用于掩码语言建模和下一句预测任务，为乌兹别克语的自然语言处理提供了有力支持。

🚀 快速开始

你可以直接使用transformers库中的pipeline对该模型进行掩码语言建模：

from transformers import pipeline

unmasker = pipeline('fill-mask', model='rifkat/uztext-3Gb-BPE-Roberta')

unmasker("Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг [mask], мутафаккири ва давлат арбоби бўлган.")

[{'score': 0.5902208685874939,
  'sequence': 'Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг шоири, мутафаккири ва давлат арбоби бўлган.',
  'token': 28809,
  'token_str': ' шоири'},
 {'score': 0.08303504437208176,
  'sequence': 'Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг устози, мутафаккири ва давлат арбоби бўлган.',
  'token': 17484,
  'token_str': ' устози'},
 {'score': 0.035882771015167236,
  'sequence': 'Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг арбоби, мутафаккири ва давлат арбоби бўлган.',
  'token': 34552,
  'token_str': ' арбоби'},
 {'score': 0.03447483479976654,
  'sequence': 'Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг асосчиси, мутафаккири ва давлат арбоби бўлган.',
  'token': 14034,
  'token_str': ' асосчиси'},
 {'score': 0.03044942207634449,
  'sequence': 'Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг дўсти, мутафаккири ва давлат арбоби бўлган.',
  'token': 28100,
  'token_str': ' дўсти'}]


unmasker("Kuchli yomg‘irlar tufayli bir qator [mask] kuchli sel oqishi kuzatildi.")

[{'score': 0.410250186920166,
  'sequence': 'Kuchli yomg‘irlar tufayli bir qator hududlarda kuchli sel oqishi kuzatildi.',
  'token': 11009,
  'token_str': ' hududlarda'},
 {'score': 0.2023029774427414,
  'sequence': 'Kuchli yomg‘irlar tufayli bir qator tumanlarda kuchli sel oqishi kuzatildi.',
  'token': 35370,
  'token_str': ' tumanlarda'},
 {'score': 0.129830002784729,
  'sequence': 'Kuchli yomg‘irlar tufayli bir qator viloyatlarda kuchli sel oqishi kuzatildi.',
  'token': 33584,
  'token_str': ' viloyatlarda'},
 {'score': 0.04539087787270546,
  'sequence': 'Kuchli yomg‘irlar tufayli bir qator mamlakatlarda kuchli sel oqishi kuzatildi.',
  'token': 19315,
  'token_str': ' mamlakatlarda'},
 {'score': 0.0369882769882679,
  'sequence': 'Kuchli yomg‘irlar tufayli bir qator joylarda kuchli sel oqishi kuzatildi.',
  'token': 5853,
  'token_str': ' joylarda'}]

📦 训练数据

UzBERT模型在约200万篇新闻文章（约3GB）上进行了预训练。

@misc {rifkat_davronov_2022,
	author       = { {Adilova Fatima,Rifkat Davronov, Samariddin Kushmuratov, Ruzmat Safarov} },
	title        = { uztext-3Gb-BPE-Roberta (Revision 0c87494) },
	year         = 2022,
	url          = { https://huggingface.co/rifkat/uztext-3Gb-BPE-Roberta },
	doi          = { 10.57967/hf/0140 },
	publisher    = { Hugging Face }
}