I

Indicbart

由 ai4bharat 开发
IndicBART是一个专注于印度语言和英语的多语言序列到序列预训练模型,支持11种印度语言,基于mBART架构构建。
下载量 4,120
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

IndicBART是一个多语言序列到序列预训练模型,专注于印度语言和英语的自然语言生成任务,如机器翻译、摘要生成和问题生成等。

模型特点

多语言支持
支持11种印度语言和英语,包括阿萨姆语、孟加拉语、古吉拉特语等。
高效计算
模型比mBART和mT5(基础版)小得多,因此在微调和解码时计算成本更低。
大规模预训练
在大型印度语言语料库(4.52亿句子和90亿词元)上训练,其中包括印度英语内容。
统一书写系统
除英语外,所有语言均以天城文书写,以促进相关语言之间的迁移学习。

模型能力

文本生成
机器翻译
摘要生成
问题生成

使用案例

自然语言处理
机器翻译
将英语翻译为印度语言或将印度语言翻译为英语。
摘要生成
生成印度语言文本的摘要。
问题生成
根据印度语言文本生成相关问题。