whisper-large-v2-mix-jp开源模型 - 免费部署实现高精度日语语音识别

Whisper Large V2 Mix Jp

由 vumichien 开发

基于OpenAI Whisper-large-v2模型在日语语音数据集上微调的自动语音识别(ASR)模型

下载量 93

发布时间 : 12/19/2022

模型简介

该模型是Whisper-large-v2的日语优化版本，专门针对日语语音识别任务进行了微调，在词错误率(WER)和字错误率(CER)指标上表现优异。

日语优化

在JSUT、JSSS、CSS10和Common Voice日语数据集上专门微调，优化日语语音识别性能

低错误率

在测试集上达到7.65%的词错误率(WER)和4.72%的字错误率(CER)

高效训练

采用混合精度训练和梯度累积技术，优化训练效率

日语语音转文本

高精度语音识别

长音频处理

语音转录

日语会议记录

将日语会议录音自动转换为文字记录

准确率约92.35% (基于1-WER)

日语媒体字幕生成

为日语视频内容自动生成字幕

语音助手

日语语音指令识别

用于日语语音助手系统的语音指令理解

属性	详情
模型类型	此模型是 openai/whisper-large-v2 在 vumichien/preprocessed_jsut_jsss_css10_common_voice_11 数据集上的微调版本
训练数据	vumichien/preprocessed_jsut_jsss_css10_common_voice_11
评估指标	字错率（Wer）、字符错误率（Cer）
基础模型	openai/whisper-large-v2

任务	数据集	字错率（Wer）	字符错误率（Cer）
自动语音识别	mozilla-foundation/common_voice_11_0 ja	7.6453	4.7187
自动语音识别	google/fleurs ja_jp	11.69	7.12

训练损失	轮数	步数	验证损失	字错率（Wer）	字符错误率（Cer）
0.1912	0.55	1000	0.1828	11.2314	7.0357
0.1329	1.1	2000	0.1618	9.4172	5.9028
0.0912	1.65	3000	0.1616	8.9257	5.4711
0.0576	2.2	4000	0.1664	8.5861	5.3055
0.0449	2.74	5000	0.1642	8.4510	5.2930
0.02	3.29	6000	0.1799	8.1537	5.0354
0.019	3.84	7000	0.1801	8.125	5.0827
0.0067	4.39	8000	0.2003	7.8412	4.8133
0.006	4.94	9000	0.2071	7.5811	4.7023
0.0022	5.49	10000	0.2284	7.6453	4.7187