indictrans2-indic-en-dist-200M开源翻译模型 - 支持22种印度语言与英语互译

首页

Indictrans2 Indic En Dist 200M

由 ai4bharat 开发

这是一个支持22种印度语言与英语互译的机器翻译模型，采用蒸馏技术优化，参数规模200M。

机器翻译

Transformers

支持多种语言开源协议:MIT #印度多语言翻译 #22种印度语言 #蒸馏模型

下载量 3,123

发布时间 : 9/12/2023

模型简介

该模型专注于印度22种官方语言与英语之间的高质量机器翻译，特别针对印度语言特点进行了优化。

模型特点

多语言支持

支持22种印度官方语言与英语之间的互译

蒸馏技术优化

采用蒸馏技术减小模型规模同时保持翻译质量

文字系统适配

针对不同印度语言的文字系统(如天城文、孟加拉文等)进行了专门适配

长上下文支持

RoPE变体版本可处理长达2048标记的序列

模型能力

文本翻译

多语言互译

印度语言处理

使用案例

跨语言交流

政府文件翻译

将政府公告和政策文件在不同印度语言间转换

教育材料本地化

将教育内容翻译为不同印度语言版本

商业应用

多语言客服系统

构建支持多种印度语言的自动客服系统

电子商务本地化

为电商平台提供多语言产品描述翻译

🚀 IndicTrans2

IndicTrans2是一个用于印度语到英语翻译的模型，支持多种印度语言，在多语言翻译任务中表现出色，为印度地区的语言交流和信息传播提供了有力的支持。

🚀 快速开始

请参考TMLR提交文档中的第7.6节：蒸馏模型，以获取有关模型训练、数据和指标的更多详细信息。

如需了解如何使用与Hugging Face兼容的IndicTrans2模型进行推理，请参考GitHub仓库中的详细说明。

💻 使用示例

基础用法

import torch
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
from IndicTransToolkit.processor import IndicProcessor
# recommended to run this on a gpu with flash_attn installed
# don't set attn_implemetation if you don't have flash_attn
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

src_lang, tgt_lang = "hin_Deva", "eng_Latn"
model_name = "ai4bharat/indictrans2-indic-en-dist-200M"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

model = AutoModelForSeq2SeqLM.from_pretrained(
    model_name, 
    trust_remote_code=True, 
    torch_dtype=torch.float16, # performance might slightly vary for bfloat16
    attn_implementation="flash_attention_2"
).to(DEVICE)

ip = IndicProcessor(inference=True)

input_sentences = [
    "जब मैं छोटा था, मैं हर रोज़ पार्क जाता था।",
    "हमने पिछले सप्ताह एक नई फिल्म देखी जो कि बहुत प्रेरणादायक थी।",
    "अगर तुम मुझे उस समय पास मिलते, तो हम बाहर खाना खाने चलते।",
    "मेरे मित्र ने मुझे उसके जन्मदिन की पार्टी में बुलाया है, और मैं उसे एक तोहफा दूंगा।",
]

batch = ip.preprocess_batch(
    input_sentences,
    src_lang=src_lang,
    tgt_lang=tgt_lang,
)

DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

# Tokenize the sentences and generate input encodings
inputs = tokenizer(
    batch,
    truncation=True,
    padding="longest",
    return_tensors="pt",
    return_attention_mask=True,
).to(DEVICE)

# Generate translations using the model
with torch.no_grad():
    generated_tokens = model.generate(
        **inputs,
        use_cache=True,
        min_length=0,
        max_length=256,
        num_beams=5,
        num_return_sequences=1,
    )

# Decode the generated tokens into text
generated_tokens = tokenizer.batch_decode(
    generated_tokens,
    skip_special_tokens=True,
    clean_up_tokenization_spaces=True,
)

# Postprocess the translations, including entity replacement
translations = ip.postprocess_batch(generated_tokens, lang=tgt_lang)

for input_sentence, translation in zip(input_sentences, translations):
    print(f"{src_lang}: {input_sentence}")
    print(f"{tgt_lang}: {translation}")

📚 详细文档

📢 长上下文IT2模型

基于新RoPE的IndicTrans2模型能够处理长达2048个标记的序列长度，可在此处获取。
只需更改model_name参数即可使用这些模型。有关生成的更多信息，请阅读RoPE - IT2模型的模型卡片。
建议使用flash_attention_2运行这些模型，以实现高效生成。

📄 许可证

本项目采用MIT许可证。

📚 引用

如果您考虑使用我们的工作，请使用以下引用：

@article{gala2023indictrans,
title={IndicTrans2: Towards High-Quality and Accessible Machine Translation Models for all 22 Scheduled Indian Languages},
author={Jay Gala and Pranjal A Chitale and A K Raghavan and Varun Gumma and Sumanth Doddapaneni and Aswanth Kumar M and Janki Atul Nawale and Anupama Sujatha and Ratish Puduppully and Vivek Raghavan and Pratyush Kumar and Mitesh M Khapra and Raj Dabre and Anoop Kunchukuttan},
journal={Transactions on Machine Learning Research},
issn={2835-8856},
year={2023},
url={https://openreview.net/forum?id=vfT4YuzAYA},
note={}
}

📋 模型信息

属性	详情
支持语言	as、bn、brx、doi、en、gom、gu、hi、kn、ks、kas、mai、ml、mr、mni、mnb、ne、or、pa、sa、sat、sd、snd、ta、te、ur
语言详情	asm_Beng, ben_Beng, brx_Deva, doi_Deva, eng_Latn, gom_Deva, guj_Gujr, hin_Deva, kan_Knda, kas_Arab, kas_Deva, mai_Deva, mal_Mlym, mar_Deva, mni_Beng, mni_Mtei, npi_Deva, ory_Orya, pan_Guru, san_Deva, sat_Olck, snd_Arab, snd_Deva, tam_Taml, tel_Telu, urd_Arab
标签	indictrans2、translation、ai4bharat、multilingual
数据集	flores - 200、IN22 - Gen、IN22 - Conv
评估指标	bleu、chrf、chrf++、comet
推理功能	否