语言:
- 越南语
标签:
- 翻译
许可证: mit
小部件:
- 文本: "𡦂才𡦂命窖恄饒"
推理:
参数:
最大长度: 48
管道标签: translation
库名称: transformers
双向越南喃字音译模型
越南喃字(Chữ Nôm)是20世纪前越南使用的古老文字系统。它由汉字演变而来,但适应了越南语的发音和词汇。学者们曾用喃字进行文学创作和交流。这种文字在视觉上与汉字有所区别,通过语义和语音组件表达越南语概念。如今,喃字已成为专门研究领域,人们正努力保存相关知识。尽管现代越南语使用拉丁字母,喃字仍是越南文化遗产的重要组成部分。
基于Transformer编码器-解码器架构的先进轻量级预训练模型,专为越南喃字翻译设计。
模型训练数据来源包括《陆云仙传》《金云翘传》《大越史记全书》《征妇吟曲》《胡春香诗集》、chunom.org语料库文档,以及来自130部不同书籍(《字喃详解词典》)的样本文本。
本模型支持越南喃字与越南拉丁文字之间的双向翻译,可实现喃字到拉丁文字及反向转换。
使用方法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("minhtoan/t5-translate-vietnamese-nom")
model = AutoModelForSeq2SeqLM.from_pretrained("minhtoan/t5-translate-vietnamese-nom")
model.cuda()
src = "如梅早杏遲管"
tokenized_text = tokenizer.encode(src, return_tensors="pt").cuda()
model.eval()
translate_ids = model.generate(tokenized_text, max_length=48)
output = tokenizer.decode(translate_ids[0], skip_special_tokens=True)
output
输出:'như mai tảo hạnh trì quán'
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("minhtoan/t5-translate-vietnamese-nom")
model = AutoModelForSeq2SeqLM.from_pretrained("minhtoan/t5-translate-vietnamese-nom")
model.cuda()
src = "như mai tảo hạnh trì quán"
tokenized_text = tokenizer.encode(src, return_tensors="pt").cuda()
model.eval()
translate_ids = model.generate(tokenized_text, max_length=48)
output = tokenizer.decode(translate_ids[0], skip_special_tokens=True)
output
输出:'如梅早杏遲舘'
作者
潘明全