R

Roberta Hindi

由 flax-community 开发
基于海量印地语数据预训练的RoBERTa模型,支持掩码语言建模任务
下载量 212
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

这是一个在印地语数据上预训练的RoBERTa模型,采用掩码语言建模(MLM)目标训练,可用于文本填充等自然语言处理任务。

模型特点

大规模印地语预训练
基于mc4、oscar和indic-nlp等大型印地语数据集联合预训练
动态掩码策略
采用15%动态掩码比例,其中80%替换为<mask>,10%随机替换,10%保持不变
多数据集整合
整合了多个高质量印地语数据集,包括新闻、评论和维基数据等

模型能力

印地语文本填充
印地语文本理解
印地语语言模型推理

使用案例

文本处理
文本自动补全
自动补全印地语句子中的缺失部分
如示例所示能准确预测'सफर'(旅程)、'पल'(时刻)等合理词汇
情感分析
产品评论分析
分析印地语产品评论的情感倾向
在IITP产品评论数据集上达到75.53%准确率