模型简介
模型特点
模型能力
使用案例
语言:
- 阿萨姆语
- 孟加拉语
- 古吉拉特语
- 印地语
- 马拉地语
- 尼泊尔语
- 奥里亚语
- 旁遮普语
- 僧伽罗语
- 梵语
- 博杰普尔语
- 迈蒂利语
- 比哈尔语
- 孔卡尼语
许可证: Apache-2.0 数据集:
- OSCAR 标签:
- 多语言
- ALBERT
- XLMIndic
- 自然语言处理
- 印度-雅利安语系
- 印度语言处理
- ISO15919
- 转写
- 文本分类
小部件示例:
- 文本: 'cīnēra madhyāñcalē āraō ēkaṭi śaharēra bāsindārā ābāra gharabandī haẏē paṛēchēna. āja maṅgalabāra natuna karē lakaḍāuna–saṁkrānta bidhiniṣēdha jāri haōẏāra para gharē āṭakā paṛēchēna tām̐rā. karōnāra ati saṁkrāmaka natuna dharana amikranēra bistāra ṭhēkātē ēmana padakṣēpa niẏēchē kartr̥pakṣa. khabara bārtā saṁsthā ēēphapira.'
二氧化碳当量排放: 排放量: "0.21克二氧化碳" 来源: "使用此网站计算 https://mlco2.github.io/impact/#compute" 训练类型: "微调" 地理位置: "北美" 使用硬件: "P100约1.5小时"
XLMIndic基础单脚本模型
此模型基于Soham孟加拉新闻分类任务微调而来,该任务是IndicGLUE基准测试的一部分。在预训练此模型之前,我们使用Aksharamukha库将文本转写为ISO-15919格式。 Aksharamukha库的演示版托管在此处,您可以在推理小部件上转写文本并使用我们的模型。
模型描述
此模型与ALBERT Base v2模型具有相同的配置。具体来说,此模型具有以下配置:
- 12个重复层
- 128维嵌入
- 768维隐藏层
- 12个注意力头
- 1100万参数
- 512序列长度
训练数据
此模型在IndicGLUE基准测试中的Soham数据集上进行了微调。
转写
此模型的独特之处在于它接受ISO-15919转写文本。
其背后的动机是:当两种语言共享词汇时,机器学习模型可以利用这一点学习良好的跨语言表示。然而,如果这两种语言使用不同的书写脚本,模型难以建立联系。因此,如果我们能用单一脚本书写这两种语言,模型就能更容易地学习良好的跨语言表示。
对于当前使用的许多脚本,有标准的转写方案可以转换为拉丁脚本。特别是对于印度语言脚本,ISO-15919转写方案旨在将不同印度语言脚本的文本一致地转写为拉丁脚本。
以下是孟加拉语文本的ISO-15919转写示例:
原文: "রবীন্দ্রনাথ ঠাকুর এফআরএএস (৭ মে ১৮৬১ - ৭ আগস্ট ১৯৪১; ২৫ বৈশাখ ১২৬৮ - ২২ শ্রাবণ ১৩৪৮ বঙ্গাব্দ) ছিলেন অগ্রণী বাঙালি কবি, ঔপন্যাসিক, সংগীতস্রষ্টা, নাট্যকার, চিত্রকর, ছোটগল্পকার, প্রাবন্ধিক, অভিনেতা, কণ্ঠশিল্পী ও দার্শনিক।"
转写后: 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli kabi, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika.'
另一个印地语文本的示例:
原文: "चूंकि मानव परिवार के सभी सदस्यों के जन्मजात गौरव और समान तथा अविच्छिन्न अधिकार की स्वीकृति ही विश्व-शान्ति, न्याय और स्वतन्त्रता की बुनियाद है"
转写后: "cūṁki mānava parivāra kē sabhī sadasyōṁ kē janmajāta gaurava aura samāna tathā avicchinna adhikāra kī svīkr̥ti hī viśva-śānti, nyāya aura svatantratā kī buniyāda hai"
训练过程
预处理
使用Aksharamukha库将文本转写为ISO-15919格式。然后使用SentencePiece进行分词,词汇量为50,000。
训练
模型训练了8个周期,批次大小为16,学习率为2e-5。
评估结果
参见下表Soham的特定结果。
IndicGLUE
任务 | mBERT | XLM-R | IndicBERT-Base | XLMIndic-Base-Uniscript (此模型) | XLMIndic-Base-Multiscript (消融模型) |
---|---|---|---|---|---|
维基百科章节标题预测 | 71.90 | 65.45 | 69.40 | 81.78 ± 0.60 | 77.17 ± 0.76 |
文章体裁分类 | 88.64 | 96.61 | 97.72 | 98.70 ± 0.29 | 98.30 ± 0.26 |
命名实体识别 (F1分数) | 71.29 | 62.18 | 56.69 | 89.85 ± 1.14 | 83.19 ± 1.58 |
BBC印地语新闻文章分类 | 60.55 | 75.52 | 74.60 | 79.14 ± 0.60 | 77.28 ± 1.50 |
Soham孟加拉新闻文章分类 | 80.23 | 87.6 | 78.45 | 93.89 ± 0.48 | 93.22 ± 0.49 |
INLTK古吉拉特语头条体裁分类 | - | - | 92.91 | 90.73 ± 0.75 | 90.41 ± 0.69 |
INLTK马拉地语头条体裁分类 | - | - | 94.30 | 92.04 ± 0.47 | 92.21 ± 0.23 |
IITP印地语产品评论情感分类 | 74.57 | 78.97 | 71.32 | 77.18 ± 0.77 | 76.33 ± 0.84 |
IITP印地语电影评论情感分类 | 56.77 | 61.61 | 59.03 | 66.34 ± 0.16 | 65.91 ± 2.20 |
MIDAS印地语话语类型分类 | 71.20 | 79.94 | 78.44 | 78.54 ± 0.91 | 78.39 ± 0.33 |
填空式问答 (填空任务) | - | - | 37.16 | 41.54 | 38.21 |
预期用途与限制
此模型针对印度-雅利安语言进行了预训练。因此,它旨在用于这些语言的下游任务。然而,由于德拉维达语言(如马拉雅拉姆语、泰卢固语、卡纳达语等)与印度-雅利安语言共享大量词汇,此模型也可能适用于这些语言(在将文本转写为ISO-15919后)。
您可以将原始模型用于掩码语言建模或下一句预测,但主要用于在下游任务上进行微调。请参阅模型中心查找您感兴趣任务的微调版本。 请注意,此模型主要针对使用整个句子(可能被掩码)进行决策的任务,如序列分类、标记分类或问答。对于文本生成等任务,您应查看类似GPT2的模型。
使用方法
要使用此模型,您需要先安装Aksharamukha库。
pip install aksharamukha
使用此库可以按以下方式转写任何印度语言脚本的文本:
>>> from aksharamukha import transliterate
>>> text = "चूंकि मानव परिवार के सभी सदस्यों के जन्मजात गौरव और समान तथा अविच्छिन्न अधिकार की स्वीकृति ही विश्व-शान्ति, न्याय और स्वतन्त्रता की बुनियाद है"
>>> transliterated_text = transliterate.process('autodetect', 'ISO', text)
>>> transliterated_text
"cūṁki mānava parivāra kē sabhī sadasyōṁ kē janmajāta gaurava aura samāna tathā avicchinna adhikāra kī svīkr̥ti hī viśva-śānti, nyāya aura svatantratā kī buniyāda hai"
然后,您可以直接使用此模型进行掩码语言建模的管道:
>>> from transformers import pipeline
>>> from aksharamukha import transliterate
>>> unmasker = pipeline('fill-mask', model='ibraheemmoosa/xlmindic-base-uniscript')
>>> text = "রবীন্দ্রনাথ ঠাকুর এফআরএএস (৭ মে ১৮৬১ - ৭ আগস্ট ১৯৪১; ২৫ বৈশাখ ১২৬৮ - ২২ শ্রাবণ ১৩৪৮ বঙ্গাব্দ) ছিলেন অগ্রণী বাঙালি [MASK], ঔপন্যাসিক, সংগীতস্রষ্টা, নাট্যকার, চিত্রকর, ছোটগল্পকার, প্রাবন্ধিক, অভিনেতা, কণ্ঠশিল্পী ও দার্শনিক। ১৯১৩ সালে গীতাঞ্জলি কাব্যগ্রন্থের ইংরেজি অনুবাদের জন্য তিনি এশীয়দের মধ্যে সাহিত্যে প্রথম নোবেল পুরস্কার লাভ করেন।"
>>> transliterated_text = transliterate.process('Bengali', 'ISO', text)
>>> transliterated_text
'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli [MASK], aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama [MASK] puraskāra lābha karēna.'
>>> unmasker(transliterated_text)
[{'score': 0.39705055952072144,
'token': 1500,
'token_str': 'abhinētā',
'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli abhinētā, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
{'score': 0.20499080419540405,
'token': 3585,
'token_str': 'kabi',
'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli kabi, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
{'score': 0.1314290314912796,
'token': 15402,
'token_str': 'rājanētā',
'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli rājanētā, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
{'score': 0.060830358415842056,
'token': 3212,
'token_str': 'kalākāra',
'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli kalākāra, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
{'score': 0.035522934049367905,
'token': 11586,
'token_str': 'sāhityakāra',
'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli sāhityakāra, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'}]
限制与偏见
尽管我们在相对较大的多语言语料库上进行了预训练,模型仍可能表现出有害的性别、种族和政治偏见。如果您在重要问题上微调此模型,应特别小心依赖模型做出决策。
联系方式
如有任何想法或想了解更多关于我们的模型,请随时联系我们。
- Ibraheem Muhammad Moosa (ibraheemmoosa1347@gmail.com)
- Mahmud Elahi Akhter (mahmud.akhter01@northsouth.edu)
- Ashfia Binte Habib
BibTeX条目和引用信息
即将推出!


