R

Roberta TR Medium Bpe 16k

由 ctoraman 开发
基于土耳其语使用掩码语言建模(MLM)目标预训练的RoBERTa模型,不区分大小写,中等规模架构。
下载量 26
发布时间 : 3/8/2022
模型介绍
内容详情
替代品

模型简介

该模型是针对土耳其语优化的RoBERTa变体,采用中等规模架构(8层,8个头,512隐藏大小),使用BPE分词算法(16.7k词汇表)。预训练数据来自经过清洗的OSCAR土耳其语语料库,适用于土耳其语自然语言处理任务。

模型特点

土耳其语优化
专门针对土耳其语特性进行预训练和优化
中等规模架构
采用8层Transformer架构,平衡性能和效率
BPE分词
使用16.7k词汇量的Byte Pair Encoding分词算法
无大小写区分
模型不区分字母大小写,适合土耳其语特性
数据清洗
预训练数据经过额外过滤和清洗,质量较高

模型能力

土耳其语文本理解
掩码语言建模
序列分类(需微调)
下游NLP任务迁移学习

使用案例

自然语言处理
土耳其语文本分类
可用于情感分析、主题分类等任务
命名实体识别
识别土耳其语文本中的人名、地名等实体
问答系统
作为土耳其语问答系统的基础模型