wav2vec2-large-xls-r-300m-hsb-v3开源语音识别模型

首页

Wav2vec2 Large Xls R 300m Hsb V3

由 DrishtiSharma 开发

基于facebook/wav2vec2-xls-r-300m在上索布语(hsb)数据集上微调的自动语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #上索布语语音识别 #低资源语言ASR #多方言适应性

下载量 18

发布时间 : 3/2/2022

模型简介

该模型是针对上索布语的自动语音识别系统，在Common Voice 8数据集上进行了微调，能够将上索布语语音转换为文本。

模型特点

上索布语优化

专门针对上索布语进行微调，在该语言上表现优异

基于大规模预训练模型

基于facebook的wav2vec2-xls-r-300m模型进行微调，继承了其强大的语音特征提取能力

多场景适用

在Common Voice数据集上表现良好，适用于多种语音识别场景

模型能力

上索布语语音识别

语音转文本

对话语音处理

使用案例

语音转录

上索布语语音转录

将上索布语语音内容转换为文本

在测试集上WER为0.476，CER为0.112

语音助手

上索布语语音助手

为上索布语用户提供语音交互能力

🚀 wav2vec2-large-xls-r-300m-hsb-v3

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - HSB数据集上对facebook/wav2vec2 - xls - r - 300m进行微调后的版本。它可用于自动语音识别任务，在评估集上取得了良好的效果。

✨ 主要特性

多语言支持：支持上索布语（hsb）的自动语音识别。
训练数据：基于Mozilla Foundation的Common Voice 8.0数据集进行训练。
评估指标：在Common Voice 8数据集上，测试字错误率（WER）为0.4763681592039801，测试字符错误率（CER）为0.11194945177476305。

📦 安装指南

文档中未提及安装步骤，暂不提供。

💻 使用示例

文档中未提供代码示例，暂不展示。

📚 详细文档

评估命令

1. 在mozilla - foundation/common_voice_8_0测试集上进行评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hsb-v3 --dataset mozilla-foundation/common_voice_8_0 --config hsb --split test --log_outputs

2. 在speech - recognition - community - v2/dev_data上进行评估

上索布语（hsb）在speech - recognition - community - v2/dev_data中未找到！

训练超参数

以下是训练过程中使用的超参数：

属性	详情
学习率	0.00045
训练批次大小	16
评估批次大小	8
随机种子	42
梯度累积步数	2
总训练批次大小	32
优化器	Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型	线性
学习率调度器热身步数	500
训练轮数	50
混合精度训练	Native AMP

训练结果

训练损失	轮数	步数	验证损失	字错误率（WER）
8.8951	3.23	100	3.6396	1.0
3.314	6.45	200	3.2331	1.0
3.1931	9.68	300	3.0947	0.9906
1.7079	12.9	400	0.8865	0.8499
0.6859	16.13	500	0.7994	0.7529
0.4804	19.35	600	0.7783	0.7069
0.3506	22.58	700	0.6904	0.6321
0.2695	25.81	800	0.6519	0.5926
0.222	29.03	900	0.7041	0.5720
0.1828	32.26	1000	0.6608	0.5513
0.1474	35.48	1100	0.7129	0.5319
0.1269	38.71	1200	0.6664	0.5056
0.1077	41.94	1300	0.6712	0.4942
0.0934	45.16	1400	0.6467	0.4879
0.0819	48.39	1500	0.6549	0.4827