roberta-base-turkish-uncased开源模型 - 助力土耳其语文本处理与分析

首页

Roberta Base Turkish Uncased

由 TURKCELL 开发

这是一个基于土耳其语的RoBERTa基础模型，预训练数据来源于土耳其语维基百科、土耳其语OSCAR语料库以及部分新闻网站。

大型语言模型

Transformers

开源协议:MIT #土耳其语预训练 #文本填空预测 #大规模语料训练

下载量 109

发布时间 : 12/7/2023

模型简介

该模型是一个土耳其语的无大小写RoBERTa模型，主要用于土耳其语的文本理解和生成任务。

模型特点

大规模预训练数据

使用38GB土耳其语文本数据训练，包含329,720,508个句子。

高性能硬件训练

使用Intel Xeon Gold处理器和Tesla V100显卡进行训练。

土耳其语优化

专门针对土耳其语特性进行优化，包含土耳其语维基百科和新闻数据。

模型能力

土耳其语文本理解

掩码语言建模

文本填空任务

使用案例

自然语言处理

文本填空

预测句子中被掩码的词语

如示例所示，能准确预测'iki ülke arasında <mask> başladı'中的空白词语

文本生成

基于上下文生成连贯的土耳其语文本

🚀 土耳其语RoBERTa模型

这是一个基于土耳其语维基百科、土耳其语OSCAR以及一些新闻网站数据进行预训练的土耳其语RoBERTa基础模型。该模型能够助力自然语言处理相关任务，为土耳其语的文本分析、理解等工作提供强大支持。

🚀 快速开始

本部分将介绍如何快速加载和使用该土耳其语RoBERTa模型。

✨ 主要特性

训练数据丰富：在包含38GB数据和3.297亿多个句子的语料库上进行训练，涵盖土耳其语维基百科、土耳其语OSCAR和一些新闻网站的数据。
硬件资源充足：由Turkcell公司使用Intel(R) Xeon(R) Gold 6230R CPU（主频2.10GHz）、256GB内存和2块GV100GL [Tesla V100 PCIe 32GB] GPU训练250万步得到。

📦 安装指南

要使用该模型，需先安装transformers库，可使用以下命令进行安装：

pip install transformers

💻 使用示例

基础用法

以下代码展示了如何加载模型和分词器：

from transformers import AutoTokenizer, AutoModelForMaskedLM
  
tokenizer = AutoTokenizer.from_pretrained("TURKCELL/roberta-base-turkish-uncased")
model = AutoModelForMaskedLM.from_pretrained("TURKCELL/roberta-base-turkish-uncased")

高级用法

以下代码展示了如何使用fill-mask管道进行掩码填充任务：

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="TURKCELL/roberta-base-turkish-uncased",
    tokenizer="TURKCELL/roberta-base-turkish-uncased"
)

fill_mask("iki ülke arasında <mask> başladı")

[{'sequence': 'iki ülke arasında savaş başladı',
  'score': 0.3013845384120941,
  'token': 1359,
  'token_str': ' savaş'},
 {'sequence': 'iki ülke arasında müzakereler başladı',
  'score': 0.1058429479598999,
  'token': 30439,
  'token_str': ' müzakereler'},
 {'sequence': 'iki ülke arasında görüşmeler başladı',
  'score': 0.07718811184167862,
  'token': 4916,
  'token_str': ' görüşmeler'},
 {'sequence': 'iki ülke arasında kriz başladı',
  'score': 0.07174749672412872,
  'token': 3908,
  'token_str': ' kriz'},
 {'sequence': 'iki ülke arasında çatışmalar başladı',
  'score': 0.05678590387105942,
  'token': 19346,
  'token_str': ' çatışmalar'}]