MultiIndicWikiBioUnified开源模型 - 支持9种印度语言的传记免费生成

首页

Multiindicwikibiounified

由 ai4bharat 开发

一个基于IndicBART微调的多语言序列到序列模型，支持9种印度语言的传记生成

文本生成

Transformers

其他#印度多语言生成 #梵文字母统一处理 #低资源传记生成

下载量 54

发布时间 : 3/16/2022

模型简介

该模型在IndicWikiBio数据集上微调，专门用于生成印度语言的维基风格传记文本。支持阿萨姆语、孟加拉语、印地语等多种印度语言。

模型特点

多语言支持

支持9种印度语言，包括一些不被mBART50和mT5支持的语言

高效计算

比mBART和mT5(基础版)更小，计算成本更低

印度语言优化

基于34,653个印度语言示例微调，所有语言以梵文字母表示以促进迁移学习

模型能力

多语言文本生成

传记文本生成

印度语言处理

使用案例

内容生成

维基风格传记生成

根据结构化信息生成维基百科风格的传记文本

在IndicWikiBio测试集上RougeL得分从38.84到67.48不等

🚀 多语言印度维基传记统一模型（MultiIndicWikiBioUnified）

多语言印度维基传记统一模型（MultiIndicWikiBioUnified）是一个多语言的序列到序列预训练模型，它是在 IndicWikiBio 数据集的 9 种语言上对 IndicBART 检查点进行微调得到的。有关微调的详细信息，请参阅论文。你可以通过使用有监督的训练数据对该模型进行微调，利用 MultiIndicWikiBio 为印度语言构建传记生成应用程序。该模型的一些显著特点如下：

支持多种语言：支持阿萨姆语、孟加拉语、印地语、奥里亚语、旁遮普语、卡纳达语、马拉雅拉姆语、泰米尔语和泰卢固语。并非所有这些语言都被 mBART50 和 mT5 支持。
模型规模小：该模型比 mBART 和 mT5(-base) 模型小得多，因此在微调和解码时计算成本更低。
基于印度语料库微调：在印度语言语料库（34,653 个示例）上进行了微调。
采用天城文表示：所有语言都用天城文表示，以促进相关语言之间的迁移学习。

你可以在这篇论文中了解更多关于多语言印度维基传记统一模型的信息。

🚀 快速开始

标签信息

标签：wikibio、multilingual、nlp、indicnlp
数据集：ai4bharat/IndicWikiBio
支持语言：阿萨姆语（as）、孟加拉语（bn）、印地语（hi）、卡纳达语（kn）、马拉雅拉姆语（ml）、奥里亚语（or）、旁遮普语（pa）、泰米尔语（ta）、泰卢固语（te）
许可证：cc - by - nc - 4.0

示例数据

<TAG> name </TAG> नवतेज भारती <TAG> image </TAG> NavtejBharati . jpg <TAG> birth name </TAG> नवतेज <TAG> birth date </TAG> 1938 <TAG> birth place </TAG> रोडे , भारतीय पंजाब , भारत । पंजाब <TAG> occupation </TAG> लेखक , कवि <TAG> nationality </TAG> कैनेडा । कैनेडियन <TAG> ethnicity </TAG> पंजाबी लोक । पंजाबी </s> <2hi>

✨ 主要特性

多语言支持：支持多种印度语言，为印度语言的自然语言处理任务提供了更广泛的覆盖。
低计算成本：相较于 mBART 和 mT5(-base) 模型，规模更小，在微调和解码时计算成本更低。
基于印度语料库：在印度语言语料库上进行微调，更适合印度语言的相关任务。
促进迁移学习：所有语言用天城文表示，有助于相关语言之间的迁移学习。

📦 安装指南

文档未提供安装步骤，此部分跳过。

💻 使用示例

基础用法

from transformers import MBartForConditionalGeneration, AutoModelForSeq2SeqLM
from transformers import AlbertTokenizer, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("ai4bharat/MultiIndicWikiBioUnified", do_lower_case=False, use_fast=False, keep_accents=True)
# Or use tokenizer = AlbertTokenizer.from_pretrained("ai4bharat/MultiIndicWikiBioUnified", do_lower_case=False, use_fast=False, keep_accents=True)

model = AutoModelForSeq2SeqLM.from_pretrained("ai4bharat/MultiIndicWikiBioUnified")
# Or use model = MBartForConditionalGeneration.from_pretrained("ai4bharat/MultiIndicWikiBioUnified")

# Some initial mapping
bos_id = tokenizer._convert_token_to_id_with_added_voc("<s>")
eos_id = tokenizer._convert_token_to_id_with_added_voc("</s>")
pad_id = tokenizer._convert_token_to_id_with_added_voc("<pad>")
# To get lang_id use any of ['<2as>', '<2bn>', '<2hi>', '<2kn>', '<2ml>', '<2or>', '<2pa>', '<2ta>', '<2te>']

# First tokenize the input and outputs. The format below is how IndicBART was trained so the input should be "Sentence </s> <2xx>" where xx is the language code. Similarly, the output should be "<2yy> Sentence </s>". 
inp = tokenizer("<TAG> name </TAG> भीखा लाल <TAG> office </TAG> विधायक - 318 - हसनगंज विधान सभा निर्वाचन क्षेत्र , उत्तर प्रदेश <TAG> term </TAG> 1957 से 1962 <TAG> nationality </TAG> भारतीय</s><2hi>", add_special_tokens=False, return_tensors="pt", padding=True).input_ids 

out = tokenizer("<2hi> भीखा लाल ,भारत के उत्तर प्रदेश की दूसरी विधानसभा सभा में विधायक रहे। </s>", add_special_tokens=False, return_tensors="pt", padding=True).input_ids 
model_outputs=model(input_ids=inp, decoder_input_ids=out[:,0:-1], labels=out[:,1:])

# For loss
model_outputs.loss ## This is not label smoothed.

# For logits
model_outputs.logits

# For generation. Pardon the messiness. Note the decoder_start_token_id.
model.eval() # Set dropouts to zero

model_output=model.generate(inp, use_cache=True,no_repeat_ngram_size=3,encoder_no_repeat_ngram_size=3, num_beams=4, max_length=20, min_length=1, early_stopping=True, pad_token_id=pad_id, bos_token_id=bos_id, eos_token_id=eos_id, decoder_start_token_id=tokenizer._convert_token_to_id_with_added_voc("<2hi>"))

# Decode to get output strings
decoded_output=tokenizer.decode(model_output[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)

print(decoded_output) # भीखा लाल ,भारत के उत्तर प्रदेश की दूसरी विधानसभा सभा में विधायक रहे।

# Disclaimer
Note that if your output language is not Hindi or Marathi, you should convert its script from Devanagari to the desired language using the [Indic NLP Library](https://github.com/AI4Bharat/indic-bart/blob/main/indic_scriptmap.py).

注意事项

⚠️ 重要提示

如果你希望使用非天城文书写的语言，你应该首先使用印度自然语言处理库将其转换为天城文。在得到输出后，你应该将其转换回原始文字。

📚 详细文档

基准测试

在 IndicWikiBio 测试集上的得分如下：

语言	RougeL
阿萨姆语（as）	56.28
孟加拉语（bn）	57.42
印地语（hi）	67.48
卡纳达语（kn）	40.01
马拉雅拉姆语（ml）	38.84
奥里亚语（or）	67.13
旁遮普语（pa）	52.88
泰米尔语（ta）	51.82
泰卢固语（te）	51.43

引用

如果你使用这个模型，请引用以下论文：

@inproceedings{Kumar2022IndicNLGSM,
  title={IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic Languages},
  author={Aman Kumar and Himani Shrotriya and Prachi Sahu and Raj Dabre and Ratish Puduppully and Anoop Kunchukuttan and Amogh Mishra and Mitesh M. Khapra and Pratyush Kumar},
  year={2022},
  url = "https://arxiv.org/abs/2203.05437"
  }