wav2vec2-large-xls-r-300m-hsb-v2开源模型 - 实现上索布语自动语音识别

首页

Wav2vec2 Large Xls R 300m Hsb V2

由 DrishtiSharma 开发

这是一个基于Facebook的wav2vec2-xls-r-300m模型在上索布语(HSB)数据集上微调的自动语音识别(ASR)模型。

语音识别

Transformers

其他开源协议:Apache-2.0 #上索布语语音识别 #低词错误率 #多场景语音处理

下载量 19

发布时间 : 3/2/2022

模型简介

该模型专门用于上索布语的语音识别任务，在Common Voice 8数据集上进行了微调，能够将上索布语语音转换为文本。

模型特点

上索布语专用

专门为上索布语优化的语音识别模型

基于大规模预训练模型

基于Facebook的wav2vec2-xls-r-300m模型微调，具备强大的语音特征提取能力

相对较高的识别准确率

在Common Voice 8测试集上达到46.5%的词错误率(WER)和11.4%的字错误率(CER)

模型能力

上索布语语音识别

语音转文本

自动语音转录

使用案例

语音转录

上索布语语音转录

将上索布语语音内容转换为文本

在Common Voice 8测试集上WER为46.5%

语言保护

少数民族语言数字化

帮助保存和数字化上索布语等少数民族语言

🚀 wav2vec2-large-xls-r-300m-hsb-v2

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - HSB数据集上对facebook/wav2vec2 - xls - r - 300m进行微调后的版本。它在评估集上取得了以下成果，为自动语音识别任务提供了有效的解决方案。

✨ 主要特性

多语言支持：支持上索布语（hsb），适用于特定语言的语音识别场景。
微调优化：基于预训练模型进行微调，在特定数据集上表现更优。
评估指标良好：在评估集上有较好的损失和WER指标。

📦 安装指南

文档未提及安装步骤，暂不提供。

💻 使用示例

文档未提供代码示例，暂不展示。

📚 详细文档

评估命令

在mozilla - foundation/common_voice_8_0测试分割集上进行评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hsb-v2 --dataset mozilla-foundation/common_voice_8_0 --config hsb --split test --log_outputs

在speech - recognition - community - v2/dev_data上进行评估 上索布语（hsb）在speech - recognition - community - v2/dev_data中未找到。

训练超参数

以下是训练过程中使用的超参数：

属性	详情
学习率	0.00045
训练批次大小	16
评估批次大小	8
随机种子	42
梯度累积步数	2
总训练批次大小	32
优化器	Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型	线性
学习率调度器热身步数	500
训练轮数	50
混合精度训练	原生AMP

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
8.5979	3.23	100	3.5602	1.0
3.303	6.45	200	3.2238	1.0
3.2034	9.68	300	3.2002	0.9888
2.7986	12.9	400	1.2408	0.9210
1.3869	16.13	500	0.7973	0.7462
1.0228	19.35	600	0.6722	0.6788
0.8311	22.58	700	0.6100	0.6150
0.717	25.81	800	0.6236	0.6013
0.6264	29.03	900	0.6031	0.5575
0.5494	32.26	1000	0.5656	0.5309
0.4781	35.48	1100	0.5289	0.4996
0.4311	38.71	1200	0.5375	0.4768
0.3902	41.94	1300	0.5246	0.4703
0.3508	45.16	1400	0.5382	0.4696
0.3199	48.39	1500	0.5328	0.4596

框架版本

Transformers 4.16.1
Pytorch 1.10.0+cu111
Datasets 1.18.2
Tokenizers 0.11.0

🔧 技术细节

本模型在评估集上取得了以下结果：

损失：0.5328
词错误率（Wer）：0.4596

模型评估结果详情

任务	数据集	指标	值
自动语音识别	Common Voice 8（hsb）	测试词错误率（Test WER）	0.4654228855721393
自动语音识别	Common Voice 8（hsb）	测试字符错误率（Test CER）	0.11351049990708047
自动语音识别	Robust Speech Event - Dev Data（hsb）	测试词错误率（Test WER）	NA
自动语音识别	Robust Speech Event - Dev Data（hsb）	测试字符错误率（Test CER）	NA