xlmindic-base-uniscript-soham开源多语言模型 - 优化印欧语处理，支持转写文本

首页

Xlmindic Base Uniscript Soham

由 ibraheemmoosa 开发

这是一个基于ALBERT架构的多语言模型，专门针对印度-雅利安语系语言进行优化，支持ISO-15919转写文本处理。

大型语言模型其他开源协议:Apache-2.0 #ISO15919转写 #印度语言多任务处理 #跨语言表示学习

下载量 117

发布时间 : 3/2/2022

模型简介

该模型经过微调，主要用于处理转写为ISO-15919格式的印度语言文本，支持多种自然语言处理任务。

模型特点

ISO-15919转写支持

模型接受ISO-15919转写文本，使不同书写系统的印度语言能够统一处理。

多语言能力

支持14种印度-雅利安语系语言的处理，具有跨语言表示学习能力。

高效架构

基于ALBERT架构，参数共享机制使得模型更轻量高效。

IndicGLUE基准表现优异

在多个印度语言处理任务上超越了mBERT、XLM-R等基准模型。

模型能力

文本分类

命名实体识别

掩码语言建模

跨语言文本处理

印度语言理解

使用案例

新闻分类

孟加拉新闻分类

对孟加拉语新闻文章进行体裁分类

在Soham数据集上达到93.89%准确率

印地语新闻分类

对BBC印地语新闻文章进行分类

达到79.14%准确率

语言理解

跨语言文本处理

处理转写为ISO-15919格式的多种印度语言文本

在IndicGLUE基准测试中表现优异

🚀 XLMIndic Base Uniscript

本模型是在Soham孟加拉语新闻分类任务上，基于此模型进行微调得到的，该任务是IndicGLUE基准测试的一部分。在预训练此模型之前，我们使用Aksharamukha库将文本音译为ISO - 15919格式。 你可以在这里查看Aksharamukha库的演示，在该演示中你可以对文本进行音译，并在推理小部件上使用我们的模型。

✨ 主要特性

多语言支持：支持多种印度 - 雅利安语系语言，如阿萨姆语（as）、孟加拉语（bn）等。
音译处理：采用ISO - 15919音译方案，便于模型学习跨语言表示。
性能优异：在多个下游任务上取得了较好的评估结果。

📦 安装指南

要使用此模型，你需要先安装Aksharamukha库。

pip install aksharamukha

💻 使用示例

基础用法

>>> from aksharamukha import transliterate
>>> text = "चूंकि मानव परिवार के सभी सदस्यों के जन्मजात गौरव और समान तथा अविच्छिन्न अधिकार की स्वीकृति ही विश्व-शान्ति, न्याय और स्वतन्त्रता की बुनियाद है"
>>> transliterated_text = transliterate.process('autodetect', 'ISO', text)
>>> transliterated_text
"cūṁki mānava parivāra kē sabhī sadasyōṁ kē janmajāta gaurava aura samāna tathā avicchinna adhikāra kī svīkr̥ti hī viśva-śānti, nyāya aura svatantratā kī buniyāda hai"

高级用法

>>> from transformers import pipeline
>>> from aksharamukha import transliterate
>>> unmasker = pipeline('fill-mask', model='ibraheemmoosa/xlmindic-base-uniscript')
>>> text = "রবীন্দ্রনাথ ঠাকুর এফআরএএস (৭ মে ১৮৬১ - ৭ আগস্ট ১৯৪১; ২৫ বৈশাখ ১২৬৮ - ২২ শ্রাবণ ১৩৪৮ বঙ্গাব্দ) ছিলেন অগ্রণী বাঙালি [MASK], ঔপন্যাসিক, সংগীতস্রষ্টা, নাট্যকার, চিত্রকর, ছোটগল্পকার, প্রাবন্ধিক, অভিনেতা, কণ্ঠশিল্পী ও দার্শনিক। ১৯১৩ সালে গীতাঞ্জলি কাব্যগ্রন্থের ইংরেজি অনুবাদের জন্য তিনি এশীয়দের মধ্যে সাহিত্যে প্রথম নোবেল পুরস্কার লাভ করেন।"
>>> transliterated_text = transliterate.process('Bengali', 'ISO', text)
>>> transliterated_text
'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli [MASK], aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama [MASK] puraskāra lābha karēna.'
>>> unmasker(transliterated_text)
[{'score': 0.39705055952072144,
  'token': 1500,
  'token_str': 'abhinētā',
  'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli abhinētā, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
 {'score': 0.20499080419540405,
  'token': 3585,
  'token_str': 'kabi',
  'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli kabi, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
 {'score': 0.1314290314912796,
  'token': 15402,
  'token_str': 'rājanētā',
  'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli rājanētā, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
 {'score': 0.060830358415842056,
  'token': 3212,
  'token_str': 'kalākāra',
  'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli kalākāra, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'},
 {'score': 0.035522934049367905,
  'token': 11586,
  'token_str': 'sāhityakāra',
  'sequence': 'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli sāhityakāra, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika. 1913 sālē gītāñjali kābyagranthēra iṁrēji anubādēra janya tini ēśīẏadēra madhyē sāhityē prathama nōbēla puraskāra lābha karēna.'}]

📚 详细文档

模型描述

此模型的配置与ALBERT Base v2模型相同。具体而言，该模型具有以下配置：

属性	详情
重复层数	12层
嵌入维度	128
隐藏维度	768
注意力头数	12
参数数量	1100万
序列长度	512

训练数据

该模型在Soham数据集上进行了微调，该数据集是IndicGLUE基准测试的一部分。

音译处理

本模型的独特之处在于它接受ISO - 15919音译后的文本。

其背后的动机如下：当两种语言共享词汇时，机器学习模型可以利用这一点来学习良好的跨语言表示。然而，如果这两种语言使用不同的书写脚本，模型就很难建立联系。因此，如果我们能将两种语言用同一种脚本书写，模型就更容易学习到良好的跨语言表示。

对于目前使用的许多脚本，都有将其转换为拉丁脚本的标准音译方案。特别是对于印度语系的脚本，ISO - 15919音译方案旨在将用不同印度语系脚本书写的文本一致地音译为拉丁脚本。

以下是一段孟加拉语文本的ISO - 15919音译示例：原文："রবীন্দ্রনাথ ঠাকুর এফআরএএস (৭ মে ১৮৬১ - ৭ আগস্ট ১৯৪১; ২৫ বৈশাখ ১২৬৮ - ২২ শ্রাবণ ১৩৪৮ বঙ্গাব্দ) ছিলেন অগ্রণী বাঙালি কবি, ঔপন্যাসিক, সংগীতস্রষ্টা, নাট্যকার, চিত্রকর, ছোটগল্পকার, প্রাবন্ধিক, অভিনেতা, কণ্ঠশিল্পী ও দার্শনিক।" 音译后：'rabīndranātha ṭhākura ēphaāraēēsa (7 mē 1861 - 7 āgasṭa 1941; 25 baiśākha 1268 - 22 śrābaṇa 1348 baṅgābda) chilēna agraṇī bāṅāli kabi, aupanyāsika, saṁgītasraṣṭā, nāṭyakāra, citrakara, chōṭagalpakāra, prābandhika, abhinētā, kaṇṭhaśilpī ō dārśanika.'

以下是一段印地语文本的ISO - 15919音译示例：原文："चूंकि मानव परिवार के सभी सदस्यों के जन्मजात गौरव और समान तथा अविच्छिन्न अधिकार की स्वीकृति ही विश्व-शान्ति, न्याय और स्वतन्त्रता की बुनियाद है" 音译后："cūṁki mānava parivāra kē sabhī sadasyōṁ kē janmajāta gaurava aura samāna tathā avicchinna adhikāra kī svīkr̥ti hī viśva-śānti, nyāya aura svatantratā kī buniyāda hai"

训练过程

预处理

使用Aksharamukha库将文本音译为ISO - 15919格式，然后使用SentencePiece进行分词，词汇量大小为50000。

训练

模型训练了8个轮次，批次大小为16，学习率为2e - 5。

评估结果

以下是在Soham相关任务上的评估结果：

任务	mBERT	XLM - R	IndicBERT - Base	XLMIndic - Base - Uniscript（本模型）	XLMIndic - Base - Multiscript（消融模型）
维基百科章节标题预测	71.90	65.45	69.40	81.78 ± 0.60	77.17 ± 0.76
文章体裁分类	88.64	96.61	97.72	98.70 ± 0.29	98.30 ± 0.26
命名实体识别（F1分数）	71.29	62.18	56.69	89.85 ± 1.14	83.19 ± 1.58
BBC印地语新闻文章分类	60.55	75.52	74.60	79.14 ± 0.60	77.28 ± 1.50
Soham孟加拉语新闻文章分类	80.23	87.6	78.45	93.89 ± 0.48	93.22 ± 0.49
INLTK古吉拉特语头条体裁分类	-	-	92.91	90.73 ± 0.75	90.41 ± 0.69
INLTK马拉地语头条体裁分类	-	-	94.30	92.04 ± 0.47	92.21 ± 0.23
IITP印地语产品评论情感分类	74.57	78.97	71.32	77.18 ± 0.77	76.33 ± 0.84
IITP印地语电影评论情感分类	56.77	61.61	59.03	66.34 ± 0.16	65.91 ± 2.20
MIDAS印地语语篇类型分类	71.20	79.94	78.44	78.54 ± 0.91	78.39 ± 0.33
完形填空式问答（填空任务）	-	-	37.16	41.54	38.21