R

Roberta Hindi Guj San

由 surajp 开发
基于印地语、梵语和古吉拉特语维基百科文章训练的多语言RoBERTa类模型,支持三种印度语系语言处理。
下载量 51
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型通过分阶段训练策略,先在印地语上预训练,再在梵语和古吉拉特语混合文本上微调,旨在利用语言相似性提升多语言处理能力。

模型特点

多语言联合训练
通过共享词表和分阶段训练策略,实现三种印度语系语言的联合建模
迁移学习优化
先使用印地语预训练,再微调其他语言,利用语言相似性提升效果
高效分词器
基于合并文本训练的统一分词器,支持三语混合处理

模型能力

文本填充
语言建模
多语言文本理解

使用案例

教育领域
古吉拉特语语法检查
自动检测和修正古吉拉特语句法错误
示例显示能正确预测句子缺失成分
文化保护
梵语古籍数字化
辅助古代梵语文献的机器处理与理解