sugoi-v4-ja-en-ctranslate2开源翻译模型 - 实现日语到英语的高质量翻译

首页

Sugoi V4 Ja En Ctranslate2

由 entai2965 开发

由明芝(MingShiba)开发的日语到英语高质量神经机器翻译模型，基于fairseq框架和CTranslate2优化

机器翻译支持多种语言开源协议:其他 #日语英语互译 #批量翻译处理 #CTranslate2加速

下载量 25

发布时间 : 11/17/2024

模型简介

专为日语到英语翻译任务优化的神经机器翻译模型，支持批量处理，提供CPU/GPU加速选项

模型特点

高质量翻译

针对日语到英语翻译任务进行了专门优化

批量处理支持

支持同时处理多个句子，提高翻译效率

硬件加速

支持CPU和CUDA GPU加速，可根据硬件条件选择

开源工具链

基于fairseq和CTranslate2等开源工具构建

模型能力

日语到英语文本翻译

批量文本处理

支持CPU/GPU推理

使用案例

内容本地化

日语内容英文化

将日语网站、文档或媒体内容翻译为英语

高质量英语译文

语言学习

日语学习辅助

帮助日语学习者理解英语对应表达

快速获取准确翻译

🚀 超棒v4日语->英语神经机器翻译模型 by MingShiba

本模型是一个强大的日语到英语的神经机器翻译（NMT）模型，由MingShiba开发。它能高效准确地完成日语到英语的翻译任务，适用于多种翻译场景。

🚀 快速开始

📦 安装指南

使用Python下载模型

安装Python，可从 Python官网下载。
打开命令提示符（cmd）。
检查Python版本：

python --version

安装huggingface_hub库：

python -m pip install huggingface_hub

进入Python交互环境：

python

在Python中执行以下代码下载模型：

import huggingface_hub
huggingface_hub.download_snapshot('entai2965/sugoi-v4-ja-en-ctranslate2',local_dir='sugoi-v4-ja-en-ctranslate2')

运行模型（批量语法）

参考 CTranslate2与Fairseq的使用指南。
打开命令提示符（cmd）。
安装ctranslate2和sentencepiece库：

python -m pip install ctranslate2 sentencepiece

进入Python交互环境：

python

💻 使用示例

基础用法

import ctranslate2
import sentencepiece

# 设置默认值
model_path='sugoi-v4-ja-en-ctranslate2'
sentencepiece_model_path=model_path+'/spm'

device='cpu'
# device='cuda'

# 加载数据
string1='は静かに前へと歩み出た。'
string2='悲しいGPTと話したことがありますか?'
raw_list=[string1,string2]

# 加载模型
translator = ctranslate2.Translator(model_path, device=device)
tokenizer_for_source_language = sentencepiece.SentencePieceProcessor(sentencepiece_model_path+'/spm.ja.nopretok.model')
tokenizer_for_target_language = sentencepiece.SentencePieceProcessor(sentencepiece_model_path+'/spm.en.nopretok.model')

# 批量分词
tokenized_batch=[]
for text in raw_list:
    tokenized_batch.append(tokenizer_for_source_language.encode(text,out_type=str))

# 翻译
# https://opennmt.net/CTranslate2/python/ctranslate2.Translator.html?#ctranslate2.Translator.translate_batch
translated_batch=translator.translate_batch(source=tokenized_batch,beam_size=5)
assert(len(raw_list)==len(translated_batch))

# 解码
for count,tokens in enumerate(translated_batch):
    translated_batch[count]=tokenizer_for_target_language.decode(tokens.hypotheses[0]).replace('<unk>','')

# 输出
for text in translated_batch:
    print(text)

高级用法（函数式编程版本）

import ctranslate2
import sentencepiece

# 设置默认值
model_path='sugoi-v4-ja-en-ctranslate2'
sentencepiece_model_path=model_path+'/spm'

device='cpu'
# device='cuda'

# 加载数据
string1='は静かに前へと歩み出た。'
string2='悲しいGPTと話したことがありますか?'
raw_list=[string1,string2]

# 加载模型
translator = ctranslate2.Translator(model_path, device=device)
tokenizer_for_source_language = sentencepiece.SentencePieceProcessor(sentencepiece_model_path+'/spm.ja.nopretok.model')
tokenizer_for_target_language = sentencepiece.SentencePieceProcessor(sentencepiece_model_path+'/spm.en.nopretok.model')

# 调用处理逻辑
translated_batch=[tokenizer_for_target_language.decode(tokens.hypotheses[0]).replace('<unk>','') for tokens in translator.translate_batch(source=[tokenizer_for_source_language.encode(text,out_type=str) for text in raw_list],beam_size=5)]
assert(len(raw_list)==len(translated_batch))

# 输出
for text in translated_batch:
    print(text)