wav2vec2-large-xls-r-300m-bulgarian开源模型 - 精准实现保加利亚语语音识别

Wav2vec2 Large Xls R 300m Bulgarian

由 infinitejoy 开发

基于facebook/wav2vec2-xls-r-300m在MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - BG数据集上微调的保加利亚语语音识别模型

下载量 10.59k

发布时间 : 3/2/2022

模型简介

这是一个用于保加利亚语自动语音识别(ASR)的模型，基于XLS-R架构，在Common Voice 7.0的保加利亚语数据集上微调。

多语言预训练

基于XLS-R-300M多语言模型微调，具有强大的语音表示能力

保加利亚语优化

专门针对保加利亚语进行微调，适应特定语言特征

中等规模

300M参数规模，在性能和资源消耗间取得平衡

保加利亚语语音识别

语音转文本

对话转录

语音转录

语音备忘录转录

将保加利亚语语音备忘录转换为文本

在Common Voice 7测试集上WER 46.68%

客服对话记录

自动记录保加利亚语客服对话内容

在鲁棒语音事件测试数据上WER 64.08%

辅助技术

语音控制应用

为保加利亚语用户提供语音控制界面

该模型是基于facebook/wav2vec2-xls-r-300m在MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - BG数据集上进行微调的版本。它在评估集上取得了以下结果：

属性	详情
支持语言	保加利亚语（bg）
许可证	Apache - 2.0
标签	自动语音识别、mozilla - foundation/common_voice_7_0、generated_from_trainer、bg、robust - speech - event、model_for_talk、hf - asr - leaderboard
数据集	mozilla - foundation/common_voice_7_0

任务	数据集	测试词错误率（WER）	测试字符错误率（CER）
自动语音识别	Common Voice 7	46.68	10.75
自动语音识别	Robust Speech Event - Dev Data	63.68	19.88
自动语音识别	Robust Speech Event - Test Data	64.08	未提及

在训练过程中使用了以下超参数：

训练损失	轮数	步数	验证损失	词错误率（Wer）
2.9774	6.33	500	2.9769	1.0
1.3453	12.66	1000	0.6523	0.6980
1.1658	18.99	1500	0.5636	0.6359
1.0797	25.32	2000	0.5004	0.5759
1.044	31.65	2500	0.4958	0.5569
0.9915	37.97	3000	0.4971	0.5350
0.9429	44.3	3500	0.4829	0.5229
0.9266	50.63	4000	0.4515	0.5074
0.8965	56.96	4500	0.4599	0.5039
0.878	63.29	5000	0.4735	0.4954
0.8494	69.62	5500	0.4460	0.4878
0.8343	75.95	6000	0.4510	0.4795
0.8236	82.28	6500	0.4538	0.4789
0.8069	88.61	7000	0.4526	0.4748
0.7958	94.94	7500	0.4496	0.4700