库名称: transformers
许可证: apache-2.0
支持语言:
- 英语
- 韩语
任务标签: 翻译
标签:
- 微调模型
推理支持: 是
示例窗口:
- 用户消息:
- 角色: 用户
内容: 将以下句子翻译成韩语。Iris是基于深度学习的韩英句子翻译模型。
Iris模型

Iris是基于深度学习的韩英句子互译模型,通过先进自然语言处理技术实现韩语到英语或英语到韩语的高质量翻译。该模型深入理解两种语言的语法、词汇及上下文语境,能生成精准的翻译结果,适用于多样化应用场景。
模型详情
- 开发团队 : davidkim(金昌衍)
- 代码库 : 即将更新
- 基础模型 : mistralai/Mistral-7B-v0.2
- 训练数据 : translation_v3_346k
使用方式
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
repo = "davidkim205/iris-7b"
model = AutoModelForCausalLM.from_pretrained(repo, torch_dtype=torch.bfloat16, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained(repo)
def generate(prompt):
encoding = tokenizer(
prompt,
return_tensors='pt',
return_token_type_ids=False
).to("cuda")
gen_tokens = model.generate(
**encoding,
max_new_tokens=2048,
temperature=1.0,
num_beams=5,
)
prompt_end_size = encoding.input_ids.shape[1]
result = tokenizer.decode(gen_tokens[0, prompt_end_size:])
return result
def translate_ko2en(text):
prompt = f"[INST] 将以下韩语句子翻译成英文。{text} [/INST]"
return generate(prompt)
def translate_en2ko(text):
prompt = f"[INST] 将以下英文句子翻译成韩文。{text} [/INST]"
return generate(prompt)
if __name__ == "__main__":
while True:
text = input('输入文本>')
en_text = translate_ko2en(text)
ko_text = translate_en2ko(en_text)
print('英译结果:', en_text)
print('韩译回译:', ko_text)
运行示例
$ python iris_test.py
>Iris是基于深度学习的韩英翻译模型
英译结果: Iris is a Korean-English translation model based on deep learning.</s>
韩译回译: 아이리스는 딥러닝 기반의 한영 번역 모델입니다.</s>
指令模板
韩译英
[INST] 将以下韩语句子翻译成英文。{text} [/INST]
英译韩
[INST] 将以下英文句子翻译成韩文。{text} [/INST]
数据集说明: translation_v3_346k
因版权限制,本数据集未公开。
数据源 |
占比 |
描述 |
aihub-MTPE |
5.56% |
机器翻译质量验证数据集 |
aihub-techsci2 |
5.56% |
ICT/电子等技术领域韩英数据 |
...(其余数据源描述保持表格原格式)... |
|
|
AIHub许可信息详见:
https://aihub.or.kr/partcptnmlrd/inqry/view.do?currMenu=144&topMenu=104
性能评估
完整测试结果参见:
https://github.com/davidkim205/translation
类型 |
模型 |
BLEU |
SBLEU |
重复率 |
超长输出 |
云端服务 |
papago |
0.43 |
0.51 |
0% |
3次 |
本模型 |
iris-7b |
0.40 |
0.43 |
0% |
3次 |