Kobart-Jeju-translation开源翻译模型 - 免费实现济州语与标准韩语互译

首页

Kobart Jeju Translation

由 Junhoee 开发

基于Kobart架构的济州语与标准韩语双向翻译模型，支持两种语言间的互译

机器翻译

Transformers

韩语#韩语方言翻译 #双向翻译 #低资源优化

下载量 88

发布时间 : 5/31/2024

模型简介

该模型专门用于济州语和标准韩语之间的双向翻译，通过添加方向标识符实现自动识别翻译方向

模型特点

双向翻译能力

支持济州语与标准韩语之间的双向互译，通过添加方向标识符自动识别翻译方向

大规模训练数据

使用约93万条济州语-标准韩语平行语料进行训练

方向标识符设计

采用[제주]和[표준]前缀标识翻译方向，简化用户操作

模型能力

济州语到标准韩语翻译

标准韩语到济州语翻译

方言保护与传承

使用案例

语言保护

济州语数字化保存

将濒危的济州方言转化为标准韩语进行记录

有助于保存韩国非物质文化遗产

文化交流

济州文化内容翻译

翻译济州传统歌谣、民间故事等文化内容

促进济州文化的传播与理解

🚀 🌊 济州语、标准语双向翻译模型

本项目是一个济州语与标准语的双向翻译模型，能够实现两种语言之间的高效准确翻译，为语言交流和文化传播提供有力支持。

🚀 快速开始

你可以使用 transformers 库来使用这个模型进行推理。下面是如何加载模型并生成翻译的示例：

基础用法

import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

## Set up the device (GPU or CPU)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

## Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Junhoee/Kobart-Jeju-translation")
model = AutoModelForSeq2SeqLM.from_pretrained("Junhoee/Kobart-Jeju-translation").to(device)

## Set up the input text
## 문장 입력 전에 방향에 맞게 [제주] or [표준] 토큰을 입력 후 문장 입력
input_text = "[표준] 안녕하세요"

## Tokenize the input text
input_ids = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True).input_ids.to(device)

## Generate the translation
outputs = model.generate(input_ids, max_length=64)

## Decode and print the output
decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Model Output:", decoded_output)

Model Output: 안녕하수꽈

高级用法

## Set up the input text
## 문장 입력 전에 방향에 맞게 [제주] or [표준] 토큰을 입력 후 문장 입력
input_text = "[제주] 안녕하수꽈"

## Tokenize the input text
input_ids = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True).input_ids.to(device)

## Generate the translation
outputs = model.generate(input_ids, max_length=64)

## Decode and print the output
decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Model Output:", decoded_output)

Model Output: 안녕하세요

✨ 主要特性

双向翻译：支持济州语和标准语的双向翻译。
多数据源训练：使用了AI-Hub、Github等多个数据源的约93万条数据进行训练。

📦 安装指南

暂未提及具体安装步骤，可参考 transformers 库的安装方法。

📚 详细文档

团队成员

Bitamin 12期：具俊会、李瑟贤、李艺琳
Bitamin 13期：金允英、金宰兼、李形锡

Github链接

https://github.com/junhoeKu/Jeju_Translation.github.io

父模型

gogamza/kobart-base-v2
https://huggingface.co/gogamza/kobart-base-v2

数据集 - 约93万个行

AI-Hub（济州语发言数据 + 中年层方言发言数据）
Github（카카오브레인 JIT 数据）
其他
- 济州语词典数据（从济州道厅官网爬取）
- 歌词翻译数据（从“뭐랭하맨”油管逐一收集）
- 图书数据（从《济州方言的味道与魅力》《부에나도 지꺼져도》等图书逐一收集）
- 2018年度济州语口述资料集（逐一收集 - 用作评估数据）

超参数

训练轮数（Epoch）：3 epochs
学习率（Learning Rate）：2e-5
权重衰减（Weight Decay）：0.01
批次大小（Batch Size）：32

Bleu得分

以2018济州语口述资料集数据为基准
- 济州语 -> 标准语：0.76
- 标准语 -> 济州语：0.5
以AI-Hub济州语发言数据的验证数据为基准
- 济州语 -> 标准语：0.89
- 标准语 -> 济州语：0.77

贡献者信息

具俊会：kujoon13413@gmail.com
金允英：202000872@hufs.ac.kr
金宰兼：worua5667@inha.edu
李瑟贤：rlaorrn0123@sookmyung.ac.kr
李艺琳：i75631928@gmail.com
李形锡：gudtjr3638@gmail.com

🔧 技术细节

本模型基于 gogamza/kobart-base-v2 父模型进行训练，使用了约93万条来自多个数据源的训练数据。在训练过程中，设置了3个训练轮数，学习率为2e-5，权重衰减为0.01，批次大小为32。通过在不同数据集上的测试，得到了相应的Bleu得分，证明了模型在济州语和标准语双向翻译上的有效性。