RoBERTa-TR-medium-wp-44k开源模型 - 高效处理土耳其语文本任务

首页

Roberta TR Medium Wp 44k

由 ctoraman 开发

基于土耳其语的RoBERTa模型，采用掩码语言建模目标预训练，不区分大小写，适用于土耳其语文本处理任务。

大型语言模型

Transformers

其他#土耳其语处理 #无大小写敏感 #WordPiece分词

下载量 84

发布时间 : 3/9/2022

模型简介

该模型是一个针对土耳其语优化的RoBERTa变体，使用WordPiece分词器，词汇表大小为44.5k。模型架构类似于bert-medium，包含8层和8个注意力头，隐藏层大小为512。

模型特点

土耳其语优化

专门针对土耳其语进行预训练和优化

WordPiece分词

使用44.5k词汇表的WordPiece分词器

中等规模架构

采用8层、8个注意力头的轻量级架构，隐藏层大小为512

无大小写区分

模型不区分文本大小写，适合处理不同大小写形式的土耳其语文本

模型能力

土耳其语文本理解

掩码语言建模

序列分类

使用案例

自然语言处理

土耳其语文本分类

可用于土耳其语文本的情感分析、主题分类等任务

土耳其语语言理解

适用于需要理解土耳其语文本的各种应用场景

🚀 RoBERTa土耳其语中型WordPiece 44k（不区分大小写）

本项目是一个基于掩码语言模型（MLM）目标在土耳其语上进行预训练的模型。该模型不区分大小写，预训练语料库来自OSCAR的土耳其语部分，并经过了进一步的筛选和清理。

🚀 快速开始

本模型可按如下代码进行加载和分词，示例中的最大长度（514）可以根据需要修改：

model = AutoModel.from_pretrained([model_path])
# 用于序列分类：
# model = AutoModelForSequenceClassification.from_pretrained([model_path], num_labels=[num_classes])

tokenizer = PreTrainedTokenizerFast(tokenizer_file=[file_path])
tokenizer.mask_token = "[MASK]"
tokenizer.cls_token = "[CLS]"
tokenizer.sep_token = "[SEP]"
tokenizer.pad_token = "[PAD]"
tokenizer.unk_token = "[UNK]"
tokenizer.bos_token = "[CLS]"
tokenizer.eos_token = "[SEP]"
tokenizer.model_max_length = 514

✨ 主要特性

模型架构：与bert - medium类似（8层、8头、隐藏层大小为512）。
分词算法：采用WordPiece算法。
词汇量：词汇量大小为44.5k。

📚 详细文档

模型的详细信息可参考这篇论文：Impact of Tokenization on Language Models: An Analysis for Turkish

📄 许可证

本模型采用CC - BY - NC - SA 4.0许可证。

BibTeX引用信息

@misc{https://doi.org/10.48550/arxiv.2204.08832,
  doi = {10.48550/ARXIV.2204.08832},
  url = {https://arxiv.org/abs/2204.08832},
  author = {Toraman, Cagri and Yilmaz, Eyup Halit and Şahinuç, Furkan and Ozcelik, Oguzhan},
  keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {Impact of Tokenization on Language Models: An Analysis for Turkish},
  publisher = {arXiv},
  year = {2022},
  copyright = {Creative Commons Attribution Non Commercial Share Alike 4.0 International}
}

📦 模型信息

属性	详情
模型类型	基于掩码语言模型（MLM）目标在土耳其语上预训练的模型，不区分大小写
训练数据	OSCAR的土耳其语部分，经过进一步筛选和清理