wav2vec2-xlsr-chuvash开源自动语音识别模型

首页

Wav2vec2 Xlsr Chuvash

由 sammy786 开发

该模型是基于facebook/wav2vec2-xls-r-1b在Common Voice 8楚瓦什语数据集上微调的自动语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #楚瓦什语ASR #XLS-R微调 #低资源语言

下载量 23

发布时间 : 3/2/2022

模型简介

一个针对楚瓦什语优化的自动语音识别模型，基于大规模预训练模型微调而成

模型特点

高性能楚瓦什语识别

在Common Voice楚瓦什语测试集上取得27.81%的词错误率(WER)

基于大规模预训练模型

基于facebook/wav2vec2-xls-r-1b模型微调，继承了强大的语音特征提取能力

优化的训练过程

采用带重启的余弦退火学习率调度和混合精度训练等先进技术

模型能力

楚瓦什语语音识别

语音转文本

鲁棒语音处理

使用案例

语音技术应用

楚瓦什语语音助手

用于开发楚瓦什语语音控制的应用和助手

语音转录服务

将楚瓦什语语音内容转换为文本

🚀 sammy786/wav2vec2-xlsr-chuvash

本模型是 facebook/wav2vec2-xls-r-1b 在 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - cv 数据集上的微调版本。它在评估集（训练数据集的 10% 与其他和开发数据集合并而成）上取得了以下结果：

损失：18.02
字错率（Wer）：29.22

🚀 快速开始

本模型是基于 facebook/wav2vec2-xls-r-1b 在特定数据集上微调得到，可用于自动语音识别任务。若要评估该模型在 mozilla-foundation/common_voice_8_0 数据集 test 分割上的表现，可使用以下命令：

python eval.py --model_id sammy786/wav2vec2-xlsr-chuvash --dataset mozilla-foundation/common_voice_8_0 --config cv --split test

✨ 主要特性

基于预训练模型 facebook/wav2vec2-xls-r-1b 进行微调，在自动语音识别任务上有一定表现。
经过特定的训练过程，在评估集上取得了相应的损失和字错率指标。

📚 详细文档

模型描述

对 "facebook/wav2vec2-xls-r-1b" 进行了微调。

预期用途与限制

更多信息待补充。

训练和评估数据

训练数据为 Common voice Finnish 的 train.tsv、dev.tsv 和 other.tsv 文件。

训练过程

为创建训练数据集，将所有可能的数据集进行合并，并采用 90 - 10 的分割方式。

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）：0.000045637994662983496
训练批次大小（train_batch_size）：8
评估批次大小（eval_batch_size）：16
随机种子（seed）：13
梯度累积步数（gradient_accumulation_steps）：4
总训练批次大小（total_train_batch_size）：32
优化器（optimizer）：Adam，β=(0.9, 0.999)，ε=1e - 08
学习率调度器类型（lr_scheduler_type）：cosine_with_restarts
学习率调度器热身步数（lr_scheduler_warmup_steps）：500
训练轮数（num_epochs）：30
混合精度训练（mixed_precision_training）：Native AMP

训练结果

步数	训练损失	验证损失	字错率（Wer）
200	6.559100	2.274687	1.000000
400	1.346100	0.508268	0.681995
600	0.797500	0.391174	0.572876
800	0.556300	0.308620	0.489283
1000	0.435800	0.273956	0.454014
1200	0.388700	0.311027	0.499415
1400	0.338300	0.243977	0.413874
1600	0.294000	0.214134	0.385230
1800	0.276000	0.245991	0.397311
2000	0.253900	0.208324	0.363016
2200	0.233600	0.222156	0.370811
2400	0.219700	0.202602	0.364186
2600	0.205000	0.241339	0.384451
2800	0.176000	0.263558	0.384061
3000	0.166700	0.211768	0.333398
3200	0.160600	0.198677	0.321512
3400	0.154600	0.208655	0.328722
3600	0.146800	0.188022	0.317810
3800	0.133200	0.181083	0.313133
4000	0.134200	0.190084	0.316251
4200	0.114200	0.193034	0.312159
4400	0.117300	0.194122	0.312354
4600	0.112300	0.191111	0.305534
4800	0.107800	0.185930	0.302611
5000	0.100400	0.178625	0.299883
5200	0.099800	0.176442	0.294622
5400	0.100800	0.177935	0.294427
5600	0.096300	0.182903	0.293843
5800	0.094200	0.181041	0.293453
6000	0.097600	0.179865	0.290725
6200	0.091600	0.180327	0.292868
6400	0.093100	0.180275	0.292284

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.17.1.dev0
Tokenizers 0.10.3

📄 许可证

本模型使用 Apache-2.0 许可证。

模型信息表格

属性	详情
模型类型	基于 `facebook/wav2vec2-xls-r-1b` 微调的自动语音识别模型
训练数据	Common voice Finnish 的 `train.tsv`、`dev.tsv` 和 `other.tsv` 文件