mbart-large-51-myv-mul-v1开源翻译模型 - 支持11种语言翻译成埃尔齐亚语

首页

Mbart Large 51 Myv Mul V1

由 slone 开发

这是一个将11种语言翻译成埃尔齐亚语的神经机器翻译模型，基于mbart-large-50架构改进而来。

机器翻译

Transformers

支持多种语言#多语言到埃尔齐亚语翻译 #低资源语言支持 #基于MBART微调

下载量 19

发布时间 : 9/15/2022

模型简介

该模型专门用于将俄语、芬兰语、德语、西班牙语、英语、印地语、中文、土耳其语、乌克兰语、法语和阿拉伯语翻译成埃尔齐亚语（西里尔字母）。它是埃尔齐亚语的第一个神经机器翻译系统。

模型特点

多语言支持

支持11种语言到埃尔齐亚语的翻译

专门优化

针对埃尔齐亚语添加了额外的语言标记和19K个BPE标记

两阶段训练

先微调俄语到埃尔齐亚语翻译，再扩展到其他语言

模型能力

文本翻译

多语言互译

使用案例

语言服务

埃尔齐亚语内容创作

帮助非埃尔齐亚语使用者创建埃尔齐亚语内容

实现11种语言到埃尔齐亚语的准确翻译

文化保护

促进埃尔齐亚语的数字化保存和使用

为少数语言提供现代机器翻译支持

🚀 埃尔齐亚语翻译模型

本模型可将文本从 11 种其他语言（ru,fi,de,es,en,hi,zh,tr,uk,fr,ar）翻译成埃尔齐亚语（myv，西里尔字母书写）。查看其演示！

该模型在论文The first neural machine translation system for the Erzya language中有所描述。

✨ 主要特性

多语言支持：支持 11 种语言到埃尔齐亚语的翻译。
模型基础：基于 facebook/mbart-large-50，但更新了词汇表和检查点：
- 为埃尔齐亚语添加了额外的语言标记 myv_XX 和 19K 个新的 BPE 标记。
- 经过微调，实现从埃尔齐亚语先翻译成俄语，再翻译成其他 11 种语言。

📦 安装指南

文档未提及具体安装步骤，可参考 Hugging Face 上该模型的相关依赖安装说明。

💻 使用示例

基础用法

from transformers import MBartForConditionalGeneration, MBart50Tokenizer


def fix_tokenizer(tokenizer):
    """ Add a new language token to the tokenizer vocabulary (this should be done each time after its initialization) """
    old_len = len(tokenizer) - int('myv_XX' in tokenizer.added_tokens_encoder)
    tokenizer.lang_code_to_id['myv_XX'] = old_len-1
    tokenizer.id_to_lang_code[old_len-1] = 'myv_XX'
    tokenizer.fairseq_tokens_to_ids["<mask>"] = len(tokenizer.sp_model) + len(tokenizer.lang_code_to_id) + tokenizer.fairseq_offset

    tokenizer.fairseq_tokens_to_ids.update(tokenizer.lang_code_to_id)
    tokenizer.fairseq_ids_to_tokens = {v: k for k, v in tokenizer.fairseq_tokens_to_ids.items()}
    if 'myv_XX' not in tokenizer._additional_special_tokens:
        tokenizer._additional_special_tokens.append('myv_XX')
    tokenizer.added_tokens_encoder = {}


def translate(text, model, tokenizer, src='ru_RU', trg='myv_XX', max_length='auto', num_beams=3, repetition_penalty=5.0, train_mode=False, n_out=None, **kwargs):
    tokenizer.src_lang = src
    encoded = tokenizer(text, return_tensors="pt", truncation=True, max_length=1024)
    if max_length == 'auto':
        max_length = int(32 + 1.5 * encoded.input_ids.shape[1])
    if train_mode:
        model.train()
    else:
        model.eval()
    generated_tokens = model.generate(
        **encoded.to(model.device),
        forced_bos_token_id=tokenizer.lang_code_to_id[trg], 
        max_length=max_length, 
        num_beams=num_beams,
        repetition_penalty=repetition_penalty,
        num_return_sequences=n_out or 1,
        **kwargs
    )
    out = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
    if isinstance(text, str) and n_out is None:
        return out[0]
    return out
    

mname = 'slone/mbart-large-51-myv-mul-v1'
model = MBartForConditionalGeneration.from_pretrained(mname)
tokenizer = MBart50Tokenizer.from_pretrained(mname)
fix_tokenizer(tokenizer)


print(translate('Шумбрат, киска!', model, tokenizer, src='myv_XX', trg='ru_RU'))
# Привет, собака!   # действительно, "киска" с эрзянского переводится именно так
print(translate('Шумбрат, киска!', model, tokenizer, src='myv_XX', trg='en_XX'))
# Hi, dog!

📚 详细文档

该模型使用的数据集包括：

📄 许可证

本模型采用 CC BY-SA 4.0 许可证。

属性	详情
支持语言	俄语（ru）、芬兰语（fi）、德语（de）、西班牙语（es）、英语（en）、印地语（hi）、中文（zh）、土耳其语（tr）、乌克兰语（uk）、法语（fr）、阿拉伯语（ar）到埃尔齐亚语（myv）
模型类型	基于 facebook/mbart-large-50 微调的翻译模型
训练数据	slone/myv_ru_2022、yhavinga/ccmatrix
许可证	CC BY-SA 4.0