IndicBART开源翻译模型 - 支持11种印度语言和英语的多语言转换

首页

Indicbart

由 ai4bharat 开发

IndicBART是一个专注于印度语言和英语的多语言序列到序列预训练模型，支持11种印度语言，基于mBART架构构建。

大型语言模型

Transformers

其他#印度多语言生成 #天城文统一编码 #轻量级mBART

下载量 4,120

发布时间 : 3/2/2022

模型简介

IndicBART是一个多语言序列到序列预训练模型，专注于印度语言和英语的自然语言生成任务，如机器翻译、摘要生成和问题生成等。

模型特点

多语言支持

支持11种印度语言和英语，包括阿萨姆语、孟加拉语、古吉拉特语等。

高效计算

模型比mBART和mT5（基础版）小得多，因此在微调和解码时计算成本更低。

大规模预训练

在大型印度语言语料库（4.52亿句子和90亿词元）上训练，其中包括印度英语内容。

统一书写系统

除英语外，所有语言均以天城文书写，以促进相关语言之间的迁移学习。

模型能力

文本生成

机器翻译

摘要生成

问题生成

使用案例

自然语言处理

机器翻译

将英语翻译为印度语言或将印度语言翻译为英语。

摘要生成

生成印度语言文本的摘要。

问题生成

根据印度语言文本生成相关问题。

🚀 IndicBART

IndicBART 是一个多语言的序列到序列预训练模型，专注于印度语言和英语。它目前支持 11 种印度语言，基于 mBART 架构构建。你可以通过使用有监督的训练数据对 IndicBART 模型进行微调，来构建适用于印度语言的自然语言生成应用，如机器翻译、摘要生成、问题生成等任务。

🚀 快速开始

你可以参考以下代码示例快速使用 IndicBART 模型：

from transformers import MBartForConditionalGeneration, AutoModelForSeq2SeqLM
from transformers import AlbertTokenizer, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("ai4bharat/IndicBART", do_lower_case=False, use_fast=False, keep_accents=True)

# Or use tokenizer = AlbertTokenizer.from_pretrained("ai4bharat/IndicBART", do_lower_case=False, use_fast=False, keep_accents=True)

model = AutoModelForSeq2SeqLM.from_pretrained("ai4bharat/IndicBART")

# Or use model = MBartForConditionalGeneration.from_pretrained("ai4bharat/IndicBART")

# Some initial mapping
bos_id = tokenizer._convert_token_to_id_with_added_voc("<s>")
eos_id = tokenizer._convert_token_to_id_with_added_voc("</s>")
pad_id = tokenizer._convert_token_to_id_with_added_voc("<pad>")
# To get lang_id use any of ['<2as>', '<2bn>', '<2en>', '<2gu>', '<2hi>', '<2kn>', '<2ml>', '<2mr>', '<2or>', '<2pa>', '<2ta>', '<2te>']

# First tokenize the input and outputs. The format below is how IndicBART was trained so the input should be "Sentence </s> <2xx>" where xx is the language code. Similarly, the output should be "<2yy> Sentence </s>". 
inp = tokenizer("I am a boy </s> <2en>", add_special_tokens=False, return_tensors="pt", padding=True).input_ids # tensor([[  466,  1981,    80, 25573, 64001, 64004]])

out = tokenizer("<2hi> मैं  एक लड़का हूँ </s>", add_special_tokens=False, return_tensors="pt", padding=True).input_ids # tensor([[64006,   942,    43, 32720,  8384, 64001]])
# Note that if you use any language other than Hindi or Marathi, you should convert its script to Devanagari using the Indic NLP Library.

model_outputs=model(input_ids=inp, decoder_input_ids=out[:,0:-1], labels=out[:,1:])

# For loss
model_outputs.loss ## This is not label smoothed.

# For logits
model_outputs.logits

# For generation. Pardon the messiness. Note the decoder_start_token_id.

model.eval() # Set dropouts to zero

model_output=model.generate(inp, use_cache=True, num_beams=4, max_length=20, min_length=1, early_stopping=True, pad_token_id=pad_id, bos_token_id=bos_id, eos_token_id=eos_id, decoder_start_token_id=tokenizer._convert_token_to_id_with_added_voc("<2en>"))


# Decode to get output strings

decoded_output=tokenizer.decode(model_output[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)

print(decoded_output) # I am a boy
# Note that if your output language is not Hindi or Marathi, you should convert its script from Devanagari to the desired language using the Indic NLP Library.

# What if we mask?

inp = tokenizer("I am [MASK] </s> <2en>", add_special_tokens=False, return_tensors="pt", padding=True).input_ids

model_output=model.generate(inp, use_cache=True, num_beams=4, max_length=20, min_length=1, early_stopping=True, pad_token_id=pad_id, bos_token_id=bos_id, eos_token_id=eos_id, decoder_start_token_id=tokenizer._convert_token_to_id_with_added_voc("<2en>"))

decoded_output=tokenizer.decode(model_output[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)

print(decoded_output) # I am happy

inp = tokenizer("मैं [MASK] हूँ </s> <2hi>", add_special_tokens=False, return_tensors="pt", padding=True).input_ids

model_output=model.generate(inp, use_cache=True, num_beams=4, max_length=20, min_length=1, early_stopping=True, pad_token_id=pad_id, bos_token_id=bos_id, eos_token_id=eos_id, decoder_start_token_id=tokenizer._convert_token_to_id_with_added_voc("<2en>"))

decoded_output=tokenizer.decode(model_output[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)

print(decoded_output) # मैं जानता हूँ

inp = tokenizer("मला [MASK] पाहिजे </s> <2mr>", add_special_tokens=False, return_tensors="pt", padding=True).input_ids

model_output=model.generate(inp, use_cache=True, num_beams=4, max_length=20, min_length=1, early_stopping=True, pad_token_id=pad_id, bos_token_id=bos_id, eos_token_id=eos_id, decoder_start_token_id=tokenizer._convert_token_to_id_with_added_voc("<2en>"))

decoded_output=tokenizer.decode(model_output[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)

print(decoded_output) # मला ओळखलं पाहिजे

✨ 主要特性

支持多种语言：支持阿萨姆语、孟加拉语、古吉拉特语、印地语、马拉地语、奥里亚语、旁遮普语、卡纳达语、马拉雅拉姆语、泰米尔语、泰卢固语和英语。并非所有这些语言都被 mBART50 和 mT5 支持。
轻量级模型：该模型比 mBART 和 mT5(-base) 模型小得多，因此在微调和解码时计算成本更低。
大规模语料训练：在大型印度语言语料库（4.52 亿个句子和 90 亿个标记）上进行训练，其中还包括印度英语内容。
促进迁移学习：除英语外，所有语言都以天城文表示，以促进相关语言之间的迁移学习。

📦 安装指南

文档未提及具体安装步骤，可参考相关依赖库的官方安装说明进行安装。

💻 使用示例

基础用法

# 以下是使用 IndicBART 进行基础文本处理的示例代码
from transformers import MBartForConditionalGeneration, AutoModelForSeq2SeqLM
from transformers import AlbertTokenizer, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("ai4bharat/IndicBART", do_lower_case=False, use_fast=False, keep_accents=True)
model = AutoModelForSeq2SeqLM.from_pretrained("ai4bharat/IndicBART")

# 输入和输出的分词处理
inp = tokenizer("I am a boy </s> <2en>", add_special_tokens=False, return_tensors="pt", padding=True).input_ids
out = tokenizer("<2hi> मैं  एक लड़का हूँ </s>", add_special_tokens=False, return_tensors="pt", padding=True).input_ids

model_outputs = model(input_ids=inp, decoder_input_ids=out[:,0:-1], labels=out[:,1:])

# 获取损失值
print(model_outputs.loss)

# 获取对数几率
print(model_outputs.logits)

高级用法

# 以下是使用 IndicBART 进行文本生成的示例代码
model.eval()
bos_id = tokenizer._convert_token_to_id_with_added_voc("<s>")
eos_id = tokenizer._convert_token_to_id_with_added_voc("</s>")
pad_id = tokenizer._convert_token_to_id_with_added_voc("<pad>")

inp = tokenizer("I am [MASK] </s> <2en>", add_special_tokens=False, return_tensors="pt", padding=True).input_ids
model_output = model.generate(inp, use_cache=True, num_beams=4, max_length=20, min_length=1, early_stopping=True, pad_token_id=pad_id, bos_token_id=bos_id, eos_token_id=eos_id, decoder_start_token_id=tokenizer._convert_token_to_id_with_added_voc("<2en>"))

decoded_output = tokenizer.decode(model_output[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)
print(decoded_output)

📚 详细文档

你可以在这里和这里查看详细文档。
你可以阅读这篇论文了解更多关于 IndicBART 的信息。

🔧 技术细节

预训练语料库

我们使用了 IndicCorp 数据，涵盖 12 种语言，包含 4.52 亿个句子（90 亿个标记）。该模型使用了 mBART 中采用的文本填充目标进行训练。

下游任务微调

如果你希望对该模型进行微调，可以使用 YANMTT 工具包，按照这里的说明进行操作。
（未测试）或者，你可以使用官方的 huggingface 脚本进行翻译和摘要生成。

📄 许可证

该模型遵循 MIT 许可证。

📖 引用

如果你使用了 IndicBART，请引用以下论文：

@misc{dabre2021indicbart,
      title={IndicBART: A Pre-trained Model for Natural Language Generation of Indic Languages}, 
      author={Raj Dabre and Himani Shrotriya and Anoop Kunchukuttan and Ratish Puduppully and Mitesh M. Khapra and Pratyush Kumar},
      year={2021},
      eprint={2109.02903},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
    }

⚠️ 重要提示

该模型与最新版本的 transformers 兼容，但开发时使用的是 4.3.2 版本，因此如果可能的话，建议使用 4.3.2 版本。
虽然文档中仅展示了如何获取对数几率、损失值以及如何生成输出，但你可以执行 MBartForConditionalGeneration 类所能执行的几乎所有操作，具体可参考这里。
注意，文档中使用的分词器基于 sentencepiece 而非 BPE。因此，使用了 AlbertTokenizer 类而非 MBartTokenizer 类。
如果你希望使用非天城文书写的语言（英语除外），则应首先使用 Indic NLP Library 将其转换为天城文。获得输出后，应将其转换回原始文字。