🚀 🌊 济州语、标准语双向翻译模型
本项目是一个济州语与标准语的双向翻译模型,能够实现两种语言之间的高效准确翻译,为语言交流和文化传播提供有力支持。
🚀 快速开始
你可以使用 transformers
库来使用这个模型进行推理。下面是如何加载模型并生成翻译的示例:
基础用法
import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("Junhoee/Kobart-Jeju-translation")
model = AutoModelForSeq2SeqLM.from_pretrained("Junhoee/Kobart-Jeju-translation").to(device)
input_text = "[표준] 안녕하세요"
input_ids = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True).input_ids.to(device)
outputs = model.generate(input_ids, max_length=64)
decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Model Output:", decoded_output)
Model Output: 안녕하수꽈
高级用法
input_text = "[제주] 안녕하수꽈"
input_ids = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True).input_ids.to(device)
outputs = model.generate(input_ids, max_length=64)
decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Model Output:", decoded_output)
Model Output: 안녕하세요
✨ 主要特性
- 双向翻译:支持济州语和标准语的双向翻译。
- 多数据源训练:使用了AI-Hub、Github等多个数据源的约93万条数据进行训练。
📦 安装指南
暂未提及具体安装步骤,可参考 transformers
库的安装方法。
📚 详细文档
团队成员
- Bitamin 12期:具俊会、李瑟贤、李艺琳
- Bitamin 13期:金允英、金宰兼、李形锡
Github链接
- https://github.com/junhoeKu/Jeju_Translation.github.io
父模型
- gogamza/kobart-base-v2
- https://huggingface.co/gogamza/kobart-base-v2
数据集 - 约93万个行
- AI-Hub(济州语发言数据 + 中年层方言发言数据)
- Github(카카오브레인 JIT 数据)
- 其他
- 济州语词典数据(从济州道厅官网爬取)
- 歌词翻译数据(从“뭐랭하맨”油管逐一收集)
- 图书数据(从《济州方言的味道与魅力》《부에나도 지꺼져도》等图书逐一收集)
- 2018年度济州语口述资料集(逐一收集 - 用作评估数据)
超参数
- 训练轮数(Epoch):3 epochs
- 学习率(Learning Rate):2e-5
- 权重衰减(Weight Decay):0.01
- 批次大小(Batch Size):32
Bleu得分
-
以2018济州语口述资料集数据为基准
- 济州语 -> 标准语:0.76
- 标准语 -> 济州语:0.5
-
以AI-Hub济州语发言数据的验证数据为基准
- 济州语 -> 标准语:0.89
- 标准语 -> 济州语:0.77
贡献者信息
- 具俊会:kujoon13413@gmail.com
- 金允英:202000872@hufs.ac.kr
- 金宰兼:worua5667@inha.edu
- 李瑟贤:rlaorrn0123@sookmyung.ac.kr
- 李艺琳:i75631928@gmail.com
- 李形锡:gudtjr3638@gmail.com
🔧 技术细节
本模型基于 gogamza/kobart-base-v2
父模型进行训练,使用了约93万条来自多个数据源的训练数据。在训练过程中,设置了3个训练轮数,学习率为2e-5,权重衰减为0.01,批次大小为32。通过在不同数据集上的测试,得到了相应的Bleu得分,证明了模型在济州语和标准语双向翻译上的有效性。