R

Roberta Base Turkish Uncased

由 TURKCELL 开发
这是一个基于土耳其语的RoBERTa基础模型,预训练数据来源于土耳其语维基百科、土耳其语OSCAR语料库以及部分新闻网站。
下载量 109
发布时间 : 12/7/2023
模型介绍
内容详情
替代品

模型简介

该模型是一个土耳其语的无大小写RoBERTa模型,主要用于土耳其语的文本理解和生成任务。

模型特点

大规模预训练数据
使用38GB土耳其语文本数据训练,包含329,720,508个句子。
高性能硬件训练
使用Intel Xeon Gold处理器和Tesla V100显卡进行训练。
土耳其语优化
专门针对土耳其语特性进行优化,包含土耳其语维基百科和新闻数据。

模型能力

土耳其语文本理解
掩码语言建模
文本填空任务

使用案例

自然语言处理
文本填空
预测句子中被掩码的词语
如示例所示,能准确预测'iki ülke arasında <mask> başladı'中的空白词语
文本生成
基于上下文生成连贯的土耳其语文本