roberta-base-turkish-uncased开源模型 - 助力土耳其语自然语言处理免费可用

首页

Roberta Base Turkish Uncased

由 burakaytan 开发

基于土耳其语预训练的RoBERTa基础模型，使用38GB土耳其语语料训练

大型语言模型

Transformers

其他开源协议:MIT #土耳其语预训练 #完形填空预测 #大规模语料训练

下载量 57

发布时间 : 4/20/2022

模型简介

这是一个基于土耳其语的RoBERTa基础模型，主要用于土耳其语文本的掩码语言建模任务，支持土耳其语文本理解和生成。

模型特点

大规模土耳其语预训练

使用38GB土耳其语语料（包含维基百科、OSCAR语料库和新闻网站数据）进行训练

高性能硬件训练

在配备Intel Xeon Gold处理器和Tesla V100显卡的高性能硬件环境下完成训练

优化的土耳其语处理

专门针对土耳其语特点进行优化，能更好地处理土耳其语文本

模型能力

土耳其语文本理解

掩码语言建模

文本补全

语义分析

使用案例

文本补全

完形填空应用

预测句子中被掩码的词语

能准确预测土耳其语句子中被掩码的关键词语

语义分析

文本相似度计算

计算土耳其语文本之间的语义相似度

🚀 RoBERTa土耳其语模型

RoBERTaTurk是一个基于土耳其语的预训练模型，它在土耳其语维基百科、土耳其语OSCAR语料库以及一些新闻网站的数据上进行了预训练，能够为土耳其语自然语言处理任务提供强大支持。

🚀 快速开始

加载模型

你可以使用以下代码加载transformers库和本模型：

from transformers import AutoTokenizer, AutoModelForMaskedLM
  
tokenizer = AutoTokenizer.from_pretrained("burakaytan/roberta-base-turkish-uncased")
model = AutoModelForMaskedLM.from_pretrained("burakaytan/roberta-base-turkish-uncased")

掩码填充任务示例

以下是使用该模型进行掩码填充任务的示例代码：

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="burakaytan/roberta-base-turkish-uncased",
    tokenizer="burakaytan/roberta-base-turkish-uncased"
)

fill_mask("iki ülke arasında <mask> başladı")

[{'sequence': 'iki ülke arasında savaş başladı',
  'score': 0.3013845384120941,
  'token': 1359,
  'token_str': ' savaş'},
 {'sequence': 'iki ülke arasında müzakereler başladı',
  'score': 0.1058429479598999,
  'token': 30439,
  'token_str': ' müzakereler'},
 {'sequence': 'iki ülke arasında görüşmeler başladı',
  'score': 0.07718811184167862,
  'token': 4916,
  'token_str': ' görüşmeler'},
 {'sequence': 'iki ülke arasında kriz başladı',
  'score': 0.07174749672412872,
  'token': 3908,
  'token_str': ' kriz'},
 {'sequence': 'iki ülke arasında çatışmalar başladı',
  'score': 0.05678590387105942,
  'token': 19346,
  'token_str': ' çatışmalar'}]

📚 详细文档

模型描述

这是一个土耳其语的RoBERTa基础模型，在土耳其语维基百科、土耳其语OSCAR语料库和一些新闻网站上进行了预训练。最终的训练语料库大小为38GB，包含329,720,508个句子。

感谢Turkcell公司，我们得以在配备Intel(R) Xeon(R) Gold 6230R CPU @ 2.10GHz、256GB内存、2 x GV100GL [Tesla V100 PCIe 32GB] GPU的环境中对该模型进行了250万步的训练。

📄 许可证

本项目采用MIT许可证。

📚 引用信息

若要引用此模型，请使用以下BibTeX格式：

@inproceedings{aytan2022comparison,
  title={Comparison of Transformer-Based Models Trained in Turkish and Different Languages on Turkish Natural Language Processing Problems},
  author={Aytan, Burak and Sakar, C Okan},
  booktitle={2022 30th Signal Processing and Communications Applications Conference (SIU)},
  pages={1--4},
  year={2022},
  organization={IEEE}
}