roberta-hindi开源模型 - 基于印地语数据预训练，支持掩码语言建模

首页

Roberta Hindi

由 flax-community 开发

基于海量印地语数据预训练的RoBERTa模型，支持掩码语言建模任务

大型语言模型 #印地语文本填充 #多源数据预训练 #动态掩码策略

下载量 212

发布时间 : 3/2/2022

模型简介

这是一个在印地语数据上预训练的RoBERTa模型，采用掩码语言建模(MLM)目标训练，可用于文本填充等自然语言处理任务。

模型特点

大规模印地语预训练

基于mc4、oscar和indic-nlp等大型印地语数据集联合预训练

动态掩码策略

采用15%动态掩码比例，其中80%替换为<mask>，10%随机替换，10%保持不变

多数据集整合

整合了多个高质量印地语数据集，包括新闻、评论和维基数据等

模型能力

印地语文本填充

印地语文本理解

印地语语言模型推理

使用案例

文本处理

文本自动补全

自动补全印地语句子中的缺失部分

如示例所示能准确预测'सफर'(旅程)、'पल'(时刻)等合理词汇

情感分析

产品评论分析

分析印地语产品评论的情感倾向

在IITP产品评论数据集上达到75.53%准确率

🚀 印地语RoBERTa基础模型

这是一个基于掩码语言建模（MLM）目标在印地语语料上预训练的模型，能助力印地语自然语言处理任务，为相关应用提供强大支持。

🚀 快速开始

你可以直接使用此模型配合掩码语言建模的管道进行操作。以下是具体的代码示例：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='flax-community/roberta-hindi')
>>> unmasker("हम आपके सुखद <mask> की कामना करते हैं")
[{'score': 0.3310680091381073,
  'sequence': 'हम आपके सुखद सफर की कामना करते हैं',
  'token': 1349,
  'token_str': ' सफर'},
 {'score': 0.15317578613758087,
  'sequence': 'हम आपके सुखद पल की कामना करते हैं',
  'token': 848,
  'token_str': ' पल'},
 {'score': 0.07826550304889679,
  'sequence': 'हम आपके सुखद समय की कामना करते हैं',
  'token': 453,
  'token_str': ' समय'},
 {'score': 0.06304813921451569,
  'sequence': 'हम आपके सुखद पहल की कामना करते हैं',
  'token': 404,
  'token_str': ' पहल'},
 {'score': 0.058322224766016006,
  'sequence': 'हम आपके सुखद अवसर की कामना करते हैं',
  'token': 857,
  'token_str': ' अवसर'}]

✨ 主要特性

该模型是基于掩码语言建模（MLM）目标，在大量印地语数据上进行预训练的Transformer模型。
提供了一个更具交互性和对比性的演示：点击查看。

📦 安装指南

文档未提及安装步骤，如需使用可参考 transformers 库的安装方法。

💻 使用示例

基础用法

# 使用管道进行掩码语言建模
from transformers import pipeline
unmasker = pipeline('fill-mask', model='flax-community/roberta-hindi')
result = unmasker("हम आपके सुखद <mask> की कामना करते हैं")
print(result)

📚 详细文档

模型描述

印地语RoBERTa是一个在大量印地语数据（mc4、oscar和indic - nlp 数据集的组合）上预训练的Transformer模型。

训练数据

印地语RoBERTa模型在以下数据集的组合上进行预训练：

OSCAR：这是一个巨大的多语言语料库，通过使用goclassy架构对Common Crawl语料库进行语言分类和过滤而获得。
mC4：这是Common Crawl网络爬取语料库的一个多语言、庞大且经过清理的版本。
IndicGLUE：这是一个自然语言理解基准。
Samanantar：这是一个用于印度语言的平行语料库集合。
印地语文本长短摘要语料库：这是一个从印地语新闻网站收集的约180k篇文章及其标题和摘要的集合。
印地语文本短摘要语料库：这是一个从印地语新闻网站收集的约330k篇文章及其标题的集合。
旧报纸印地语：这是HC语料库报纸的一个清理子集。

训练过程

预处理

文本使用字节版本的字节对编码（BPE）进行分词，词汇表大小为50265。模型的输入采用长度为512的连续标记片段，这些片段可能跨越多个文档。新文档的开头用 <s> 标记，结尾用 </s> 标记。

我们必须对 mC4 和 oscar 数据集进行清理，从数据集中删除所有非印地语（非天城文）字符。
我们尝试通过手动标注过滤 IndicGlue 基准的WikiNER评估集，其中实际标签不正确，并修改下游评估数据集。

每个句子的掩码过程细节如下：

15%的标记被掩码。
在80%的情况下，被掩码的标记被 <mask> 替换。
在10%的情况下，被掩码的标记被一个与它们所替换的标记不同的随机标记替换。
在剩下的10%的情况下，被掩码的标记保持不变。与BERT不同，掩码在预训练期间是动态进行的（例如，它在每个epoch都会改变，而不是固定的）。

预训练

该模型在Google Cloud Engine TPUv3 - 8机器（具有335GB的RAM、1000GB的硬盘和96个CPU核心）上进行训练。使用 mC4、oscar 和上述其他数据集的组合数据集的随机洗牌来训练模型。训练日志可在 wandb 中查看。

评估结果

印地语RoBERTa在各种下游任务上进行了评估，结果总结如下：

任务	任务类型	IndicBERT	HindiBERTa	Indic Transformers Hindi BERT	RoBERTa Hindi Guj San	RoBERTa Hindi
BBC新闻分类	体裁分类	76.44	66.86	77.6	64.9	73.67
WikiNER	标记分类	-	90.68	95.09	89.61	92.76
IITP产品评论	情感分析	78.01	73.23	78.39	66.16	75.53
IITP电影评论	情感分析	60.97	52.26	70.65	49.35	61.29

🔧 技术细节

分词方式：使用字节版本的字节对编码（BPE），词汇表大小为50265。
输入格式：模型输入为长度512的连续标记片段，新文档开头用 <s> 标记，结尾用 </s> 标记。
掩码策略：15%的标记被掩码，掩码方式动态变化，不同情况有不同的替换规则。
训练环境：在Google Cloud Engine TPUv3 - 8机器上训练，训练日志可在 wandb 查看。

📄 许可证

文档未提及许可证信息。

团队成员

阿曼·K (amankhandelia)
哈斯万特·艾库拉 (hassiahk)
卡蒂克·戈达瓦特 (dk - crazydiv)
普拉蒂克·阿格拉瓦尔 (prateekagrawal)
拉胡尔·德夫 (mlkorra)

致谢

非常感谢Hugging Face 🤗 和Google Jax/Flax团队举办了如此精彩的社区周活动，尤其感谢他们提供了如此强大的计算资源。同时，非常感谢苏拉杰·帕蒂尔和帕特里克·冯·普拉滕在整个活动期间的指导。