wav2vec2-xls-r-300m-english开源语音识别模型 - 精准实现英语语音转文字

首页

Wav2vec2 Xls R 300m English

由 vitouphy 开发

XLS-R-300M是基于facebook/wav2vec2-xls-r-300m在librispeech_asr数据集上微调的英语自动语音识别模型，在LibriSpeech测试集上取得了12.29%的词错误率。

语音识别

Transformers

英语开源协议:Apache-2.0 #英语语音识别 #低词错误率 #多场景适配

下载量 21

发布时间 : 3/2/2022

模型简介

该模型是一个英语自动语音识别(ASR)模型，专门针对英语语音到文本转换任务进行了优化。

模型特点

多数据集表现优异

在LibriSpeech、Common Voice和鲁棒语音事件等多个数据集上进行了评估，表现稳定。

高效训练

采用梯度累积和混合精度训练等技术，提高了训练效率。

低词错误率

在LibriSpeech干净测试集上达到12.29%的词错误率，表现优秀。

模型能力

英语语音识别

语音转文本

长音频处理

使用案例

语音转录

音频书籍转录

将有声读物内容转录为文本

在LibriSpeech测试集上词错误率12.29%

语音助手

语音命令识别

识别和理解用户语音命令

在鲁棒语音事件测试集上词错误率38.8%

🚀 XLS - R - 300M - 英文

本模型是基于自动语音识别技术，在librispeech_asr数据集上对[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)进行微调后的版本，可用于英文语音识别任务，在多个语音识别数据集上进行了评估并取得了一定的指标成绩。

📚 详细文档

模型描述

该模型是在librispeech_asr数据集上对[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)进行微调得到的。它在评估集上取得了以下结果：

损失值（Loss）：0.1444
词错误率（Wer）：0.1167

预期用途和限制

文档中未提供该模型预期用途和限制的详细信息。

训练和评估数据

文档中未提供训练和评估数据的详细信息。

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）：5e - 05
训练批次大小（train_batch_size）：8
评估批次大小（eval_batch_size）：8
随机种子（seed）：42
梯度累积步数（gradient_accumulation_steps）：4
总训练批次大小（total_train_batch_size）：32
优化器（optimizer）：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型（lr_scheduler_type）：线性
学习率调度器热身步数（lr_scheduler_warmup_steps）：1000
训练轮数（num_epochs）：50
混合精度训练（mixed_precision_training）：Native AMP

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
2.9365	4.17	500	2.9398	0.9999
1.5444	8.33	1000	0.5947	0.4289
1.1367	12.5	1500	0.2751	0.2366
0.9972	16.66	2000	0.2032	0.1797
0.9118	20.83	2500	0.1786	0.1479
0.8664	24.99	3000	0.1641	0.1408
0.8251	29.17	3500	0.1537	0.1267
0.793	33.33	4000	0.1525	0.1244
0.785	37.5	4500	0.1470	0.1184
0.7612	41.66	5000	0.1446	0.1177
0.7478	45.83	5500	0.1449	0.1176
0.7443	49.99	6000	0.1444	0.1167

框架版本

Transformers：4.17.0.dev0
Pytorch：1.10.2 + cu102
Datasets：1.18.2.dev0
Tokenizers：0.11.0

📄 许可证

本模型采用Apache - 2.0许可证。

📊 模型指标

任务	数据集	指标	值
自动语音识别	LibriSpeech (clean)	测试词错误率（Test WER）	12.29
自动语音识别	LibriSpeech (clean)	测试字符错误率（Test CER）	3.34
自动语音识别	Robust Speech Event - Dev Data	验证词错误率（Validation WER）	36.75
自动语音识别	Robust Speech Event - Dev Data	验证字符错误率（Validation CER）	14.83
自动语音识别	Common Voice 8.0	测试词错误率（Test WER）	37.81
自动语音识别	Robust Speech Event - Test Data	测试词错误率（Test WER）	38.8