Tahrirchi-bert-base开源文本模型 - 乌兹别克语（拉丁字母）内容编码处理好帮手

首页

Tahrirchi Bert Base

由 tahrirchi 开发

TahrirchiBERT-base是一个乌兹别克语（拉丁字母）的仅编码器Transformer文本模型，拥有1.1亿参数，通过掩码语言建模目标预训练。

大型语言模型

Transformers

其他开源协议:Apache-2.0 #乌兹别克语文本处理 #掩码语言建模 #拉丁字母BERT

下载量 88

发布时间 : 10/26/2023

模型简介

该模型基于乌兹别克语进行预训练，适用于需要对整个句子进行决策的任务微调，如序列分类、标记分类或问答。

模型特点

乌兹别克语专用

专门针对乌兹别克语（拉丁字母）进行优化和训练，能够更好地理解和生成乌兹别克语文本。

区分大小写

模型区分大小写，能够识别和处理不同大小写的文本输入。

大规模预训练数据

使用约4000本预处理书籍和120万篇精选网络及Telegram博客文本（相当于50亿标记）进行预训练。

模型能力

填充掩码

序列分类

标记分类

问答

使用案例

文本处理

乌兹别克语文本补全

用于补全乌兹别克语文本中的缺失部分，如句子中的掩码标记。

乌兹别克语文本分类

用于对乌兹别克语文本进行分类任务，如情感分析或主题分类。

🚀 塔希尔奇BERT基础模型

塔希尔奇BERT基础模型是一个仅含编码器的Transformer文本模型，拥有1.1亿个参数。它是一个基于乌兹别克语（拉丁字母），通过掩码语言建模（MLM）目标进行预训练的模型。该模型区分大小写，即uzbek和Uzbek是不同的。

如需了解该模型的完整详情，请阅读我们的论文（即将发布！）和发布博客文章。

✨ 主要特性

该模型是塔希尔奇BERT模型家族的一部分，该家族的模型使用不同数量的参数进行训练，并且未来会持续扩展。

模型	参数数量	语言	字母
`tahrirchi-bert-small`	6700万	乌兹别克语	拉丁字母
`tahrirchi-bert-base`	1.1亿	乌兹别克语	拉丁字母

📚 详细文档

预期用途与限制

该模型主要用于在使用整个句子（可能有掩码）进行决策的任务上进行微调，例如序列分类、标记分类或问答。

如何使用

你可以直接使用该模型进行掩码语言建模：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='tahrirchi/tahrirchi-bert-base')
>>> unmasker("Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning <mask>, mutafakkiri va davlat arbobi bo‘lgan.")

[{'score': 0.4616584777832031,
  'token': 10879,
  'token_str': ' shoiri',
  'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning shoiri, mutafakkiri va davlat arbobi bo‘lgan.'},
 {'score': 0.19899587333202362,
  'token': 10013,
  'token_str': ' olimi',
  'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning olimi, mutafakkiri va davlat arbobi bo‘lgan.'},
 {'score': 0.055418431758880615,
  'token': 12224,
  'token_str': ' asoschisi',
  'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning asoschisi, mutafakkiri va davlat arbobi bo‘lgan.'},
 {'score': 0.037673842161893845,
  'token': 24597,
  'token_str': ' faylasufi',
  'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning faylasufi, mutafakkiri va davlat arbobi bo‘lgan.'},
 {'score': 0.029616089537739754,
  'token': 9543,
  'token_str': ' farzandi',
  'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning farzandi, mutafakkiri va davlat arbobi bo‘lgan.'}]


>>> unmasker("Egiluvchan boʻgʻinlari va <mask>, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.")

[{'score': 0.1740381121635437,
  'token': 12571,
  'token_str': ' oyoqlari',
  'sequence': 'Egiluvchan bo‘g‘inlari va oyoqlari, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'},
 {'score': 0.05455964431166649,
  'token': 2073,
  'token_str': ' uzun',
  'sequence': 'Egiluvchan bo‘g‘inlari va uzun, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'},
 {'score': 0.050441522151231766,
  'token': 19725,
  'token_str': ' barmoqlari',
  'sequence': 'Egiluvchan bo‘g‘inlari va barmoqlari, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'},
 {'score': 0.04490342736244202,
  'token': 10424,
  'token_str': ' tanasi',
  'sequence': 'Egiluvchan bo‘g‘inlari va tanasi, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'},
 {'score': 0.03777358680963516,
  'token': 27116,
  'token_str': ' bukilgan',
  'sequence': 'Egiluvchan bo‘g‘inlari va bukilgan, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'}]

训练数据

塔希尔奇BERT使用标准的掩码语言建模（MLM）目标进行预训练：模型会得到一个隐藏了部分标记的文本序列，然后需要预测这些被掩码的标记。塔希尔奇BERT在乌兹别克语爬取数据和乌兹别克语书籍的所有拉丁字母部分上进行训练，这些数据包含大约4000本经过预处理的书籍、从互联网和Telegram博客中抓取的120万篇精选文本文档（相当于50亿个标记）。

训练过程

预处理

文本使用字节版本的字节对编码（BPE）进行分词，词汇表大小为30528，以充分利用稀有词汇。模型的输入采用连续的512个标记片段，这些片段可能跨越多个文档。此外，我们添加了一些正则表达式，以避免在实际使用中经常错误表示的不同符号出现错误表示。

预训练

该模型以512的批次大小训练了100万步。在整个预训练阶段，序列长度限制为512个标记。使用的优化器是Adam，学习率为5e - 4，\(\beta_{1} = 0.9\)，\(\beta_{2} = 0.98\)，权重衰减为1e - 5，学习率在训练时长的6%内预热到全学习率，然后在训练结束时线性衰减到全学习率的0.02倍。

🔧 技术细节

引用

请使用以下格式引用该模型：

@online{Mamasaidov2023TahrirchiBERT,
    author    = {Mukhammadsaid Mamasaidov and Abror Shopulatov},
    title     = {TahrirchiBERT base},
    year      = {2023},
    url       = {https://huggingface.co/tahrirchi/tahrirchi-bert-base},
    note      = {Accessed: 2023-10-27}, % change this date
    urldate   = {2023-10-27} % change this date
}