wav2vec2-xls-r-300m-japanese免费开源！高效将日语音频转录为平假名文本

Wav2vec2 Xls R 300m Japanese

由 vitouphy 开发

这是一个基于facebook/wav2vec2-xls-r-300m微调的日语自动语音识别模型，专门用于将日语音频转录为平假名文本。

下载量 29

发布时间 : 3/2/2022

模型简介

该模型是在mozilla-foundation/common_voice_8_0数据集上微调的日语语音识别模型，特别优化了将日语语音转换为平假名的能力。

平假名转录优化

专门优化了将日语语音转换为平假名的能力，使用pykakasi将所有文本转换为平假名

多数据集验证

在Common Voice 8和鲁棒语音事件等多个数据集上进行了验证

语言模型支持

支持使用语言模型(LM)来提高识别准确率

日语语音识别

音频转文本

平假名转录

语音转录

日语语音转文字

将日语语音内容转换为平假名文本

CER 0.2754 (Common Voice 8测试集)

语音内容分析

分析日语语音内容并转换为可处理的文本格式

CER 0.2487 (鲁棒语音事件开发集)

本模型用于将音频转录为日语的一种形式——平假名。它基于mozilla-foundation/common_voice_8_0数据集，对facebook/wav2vec2-xls-r-300m模型进行了微调。

属性	详情
模型类型	用于自动语音识别的微调模型
训练数据	mozilla-foundation/common_voice_8_0

本模型在评估集上取得了以下结果：

运行./eval.py的评估结果如下：

模型	指标	Common-Voice-8/test	speech-recognition-community-v2/dev-data
无语言模型	词错误率（WER）	0.5964	0.5532
	字符错误率（CER）	0.2944	0.2629
有语言模型	词错误率（WER）	0.5405	0.4877
	字符错误率（CER）	0.2754	0.2487

该模型通过以下方式取得上述结果：

训练过程中使用了以下超参数：

训练损失	轮数	步数	验证损失	字符错误率（Cer）
4.4081	1.6	500	4.0983	1.0
3.303	3.19	1000	3.3563	1.0
3.1538	4.79	1500	3.2066	0.9239
2.1526	6.39	2000	1.1597	0.3355
1.8726	7.98	2500	0.9023	0.2505
1.7817	9.58	3000	0.8219	0.2334
1.7488	11.18	3500	0.7915	0.2222
1.7039	12.78	4000	0.7751	0.2227
停止并重新训练
1.6571	15.97	5000	0.6788	0.1685
1.520400	19.16	6000	0.6095	0.1409
1.448200	22.35	7000	0.5843	0.1430
1.385400	25.54	8000	0.5699	0.1263
1.354200	28.73	9000	0.5686	0.1219
1.331500	31.92	10000	0.5502	0.1144
1.290800	35.11	11000	0.5371	0.1140
停止并重新训练
1.235200	38.30	12000	0.5394	0.1106