romaneng2nep_v3开源模型 - 免费实现罗马化尼泊尔语到尼泊尔语轻松转换

首页

Romaneng2nep V3

由 syubraj 开发

该模型是基于google/mt5-small微调的罗马化尼泊尔语到尼泊尔语文本的转换模型

机器翻译

Transformers

支持多种语言开源协议:Apache-2.0 #罗马化转尼泊尔语 #多语言音译 #MT5微调

下载量 29

发布时间 : 10/9/2024

模型简介

一个用于将罗马化拼写的尼泊尔语转换为尼泊尔语文本的序列到序列模型，基于MT5架构微调

模型特点

多语言支持

支持尼泊尔语和英语之间的转换

高效微调

基于预训练的MT5-small模型进行高效微调

轻量级

small版本的模型适合资源有限的环境部署

模型能力

罗马化尼泊尔语到尼泊尔语文本转换

序列到序列文本生成

使用案例

语言处理

罗马化尼泊尔语转换

将罗马字母拼写的尼泊尔语转换为尼泊尔语文本

在评估集上取得BLEU分数评估结果

跨语言文本处理

帮助处理使用罗马字母书写的尼泊尔语内容

🚀 romaneng2nep_v2

romaneng2nep_v2 是一个基于预训练模型微调的翻译模型，它在罗马化尼泊尔语到尼泊尔语的音译任务中表现出色。该模型基于 google/mt5-small 模型，在 syubraj/roman2nepali-transliteration 数据集上进行微调，能有效将罗马化的尼泊尔语文本转换为标准尼泊尔语文本。

image/png

🚀 快速开始

安装依赖

!pip install transformers

代码示例

from transformers import AutoTokenizer, MT5ForConditionalGeneration

checkpoint = "syubraj/romaneng2nep_v3"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = MT5ForConditionalGeneration.from_pretrained(checkpoint)

# 设置最大序列长度
max_seq_len = 20

def translate(text):
    # 以最大长度20对输入文本进行分词
    inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=max_seq_len)

    # 生成翻译结果
    translated = model.generate(**inputs)

    # 将翻译后的标记解码回文本
    translated_text = tokenizer.decode(translated[0], skip_special_tokens=True)
    return translated_text

# 示例用法
source_text = "muskuraudai"  # 示例罗马化尼泊尔语文本
translated_text = translate(source_text)
print(f"翻译结果: {translated_text}")

✨ 主要特性

微调模型：基于 google/mt5-small 进行微调，在罗马化尼泊尔语到尼泊尔语的音译任务上有更好的表现。
评估指标良好：在评估集上，损失值为 2.9652，生成长度为 5.1538。

📦 安装指南

使用该模型前，需要安装 transformers 库，可通过以下命令进行安装：

!pip install transformers

💻 使用示例

基础用法

from transformers import AutoTokenizer, MT5ForConditionalGeneration

checkpoint = "syubraj/romaneng2nep_v3"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = MT5ForConditionalGeneration.from_pretrained(checkpoint)

# Set max sequence length
max_seq_len = 20

def translate(text):
    # Tokenize the input text with a max length of 20
    inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=max_seq_len)

    # Generate translation
    translated = model.generate(**inputs)

    # Decode the translated tokens back to text
    translated_text = tokenizer.decode(translated[0], skip_special_tokens=True)
    return translated_text

# Example usage
source_text = "muskuraudai"  # Example Romanized Nepali text
translated_text = translate(source_text)
print(f"Translated Text: {translated_text}")

📚 详细文档

模型信息

属性	详情
基础模型	google/mt5-small
数据集	syubraj/roman2nepali-transliteration
支持语言	尼泊尔语、英语
库名称	transformers
许可证	apache-2.0
评估指标	bleu
标签	generated_from_trainer

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：2e-05
训练批次大小：24
评估批次大小：24
随机种子：42
优化器：Adam（betas=(0.9,0.999)，epsilon=1e-08）
学习率调度器类型：线性
训练轮数：4

训练结果

步骤	训练损失	验证损失	生成长度
1000	15.0703	5.6154	2.3840
2000	6.0460	4.4449	4.6281
3000	5.2580	3.9632	4.7790
4000	4.8563	3.6188	5.0053
5000	4.5602	3.3491	5.3085
6000	4.3146	3.1572	5.2562
7000	4.1228	3.0084	5.2197
8000	3.9695	2.8727	5.2140
9000	3.8342	2.7651	5.1834
10000	3.7319	2.6661	5.1977
11000	3.6485	2.5864	5.1536
12000	3.5541	2.5080	5.1990
13000	3.4959	2.4464	5.1775
14000	3.4315	2.3931	5.1747
15000	3.3663	2.3401	5.1625
16000	3.3204	2.3034	5.1481
17000	3.2417	2.2593	5.1663
18000	3.2186	2.2283	5.1351
19000	3.1822	2.1946	5.1573
20000	3.1449	2.1690	5.1649
21000	3.1067	2.1402	5.1624
22000	3.0844	2.1258	5.1479
23000	3.0574	2.1066	5.1518
24000	3.0357	2.0887	5.1446
25000	3.0136	2.0746	5.1559
26000	2.9957	2.0609	5.1658
27000	2.9865	2.0510	5.1791
28000	2.9765	2.0456	5.1574
29000	2.9675	2.0386	5.1620
30000	2.9678	2.0344	5.1601
31000	2.9652	2.0320	5.1538

框架版本

Transformers 4.45.1
Pytorch 2.4.0
Datasets 3.0.1
Tokenizers 0.20.0

引用说明

如果您觉得这个模型有用，请引用以下内容：

@misc {yubraj_sigdel_2024,
	author       = { {Yubraj Sigdel} },
	title        = { romaneng2nep_v3 (Revision dca017e) },
	year         = 2024,
	url          = { https://huggingface.co/syubraj/romaneng2nep_v3 },
	doi          = { 10.57967/hf/3252 },
	publisher    = { Hugging Face }
}