I

Indicbertv2 MLM Only

由 ai4bharat 开发
IndicBERT是一个支持23种印度语言及英语的多语言语言模型,拥有2.78亿参数,在IndicCorp v2上训练并在IndicXTREME基准测试中评估。
下载量 87.60k
发布时间 : 11/13/2022

模型简介

IndicBERT是一个多语言BERT风格模型,专注于印度语言处理,通过多种训练目标和数据集优化,支持填充掩码任务。

模型特点

多语言支持
支持23种印度语言及英语,覆盖多种语言家族。
多种训练目标
通过MLM、TLM及反向翻译等多种目标训练,提升模型性能。
词汇共享优化
IndicBERT-SS版本通过文字转换促进语言间更好的词汇共享。

模型能力

多语言文本理解
填充掩码任务处理
跨语言迁移学习

使用案例

自然语言理解
命名实体识别
在多种印度语言中识别命名实体。
情感分析
分析印度语言文本的情感倾向。
机器翻译辅助
平行语料库增强
通过TLM训练提升机器翻译模型的性能。
AIbase
智启未来,您的人工智能解决方案智库
简体中文