ja-cascaded-s2t-translation开源模型 - 轻松实现日语语音到多语言文本翻译

Ja Cascaded S2t Translation

由 japanese-asr 开发

这是一个基于级联方法的日语语音到任意目标语言文本的翻译流水线，由自动语音识别（ASR）和文本翻译两部分组成。

下载量 60

发布时间 : 9/25/2024

模型简介

该流水线使用 kotoba-tech/kotoba-whisper-v2.0 进行日语语音识别（日语语音 -> 日语文本），并使用 facebook/nllb-200-3.3B 进行文本翻译。输入必须是日语语音，而翻译可以是 NLLB 训练的任何语言。

高准确率

在日语语音到英语文本的翻译任务中，相比OpenAI Whisper模型具有更低的词错误率（WER）。

多语言支持

支持将日语语音翻译为NLLB模型训练的任何目标语言。

模块化设计

采用级联方法，可以灵活替换ASR或翻译模块。

高效推理

即使在较长音频上也能保持较快的推理速度。

日语语音识别

多语言文本翻译

音频处理

语音翻译

日语会议记录翻译

将日语会议录音实时翻译为英语或其他语言文本。

在CoVoST2数据集上达到64.3 WER

日语教育

帮助日语学习者将日语语音转换为母语文本。

多语言内容创作

播客多语言字幕生成

将日语播客内容自动翻译为多种语言字幕。

模型	CoVoST2 (日语 -> 英语)	Fleurs (日语 -> 英语)
japanese-asr/ja-cascaded-s2t-translation (facebook/nllb-200-3.3B)	64.3	67.1
japanese-asr/ja-cascaded-s2t-translation (facebook/nllb-200-1.3B)	65.4	68.9
japanese-asr/ja-cascaded-s2t-translation (facebook/nllb-200-distilled-1.3B)	65.6	67.4
japanese-asr/ja-cascaded-s2t-translation (facebook/nllb-200-distilled-600M)	68.2	72.2
openai/whisper-large-v3	71	86.1
openai/whisper-large-v2	66.4	78.8
openai/whisper-large	66.5	86.1
openai/whisper-medium	70.3	97.2
openai/whisper-small	97.3	132.2
openai/whisper-base	186.2	349.6
openai/whisper-tiny	377.2	474

模型	10 秒	30 秒	60 秒	300 秒
japanese-asr/ja-cascaded-s2t-translation (facebook/nllb-200-3.3B)	0.173	0.247	0.352	1.772
japanese-asr/ja-cascaded-s2t-translation (facebook/nllb-200-1.3B)	0.173	0.24	0.348	1.515
japanese-asr/ja-cascaded-s2t-translation (facebook/nllb-200-distilled-1.3B)	0.17	0.245	0.348	1.882
japanese-asr/ja-cascaded-s2t-translation (facebook/nllb-200-distilled-600M)	0.108	0.179	0.283	1.33
openai/whisper-large-v3	0.061	0.184	0.372	1.804
openai/whisper-large-v2	0.062	0.199	0.415	1.854
openai/whisper-large	0.062	0.183	0.363	1.899
openai/whisper-medium	0.045	0.132	0.266	1.368
openai/whisper-small	0.135	0.376	0.631	3.495
openai/whisper-base	0.054	0.108	0.231	1.019
openai/whisper-tiny	0.045	0.124	0.208	0.838