wav2vec2-common_voice-ab-demo开源语音识别模型

Wav2vec2 Common Voice Ab Demo

由 patrickvonplaten 开发

基于facebook/wav2vec2-large-xlsr-53模型在COMMON_VOICE - AB数据集上微调的语音识别模型

下载量 18

发布时间 : 3/2/2022

模型简介

该模型是针对阿布哈兹语(ab)优化的语音识别模型，适用于将阿布哈兹语音频转换为文本的任务

阿布哈兹语优化

专门针对阿布哈兹语进行微调，提高该语言的识别准确率

基于wav2vec2架构

采用Facebook先进的wav2vec2-large-xlsr-53架构，具备强大的语音特征提取能力

低词错误率

在评估集上取得了1.0的词错误率表现

阿布哈兹语语音识别

音频转文本

语音转录

语音转录

阿布哈兹语语音转录

将阿布哈兹语的语音内容转换为文本

词错误率1.0

语音助手

阿布哈兹语语音助手

支持阿布哈兹语交互的语音助手应用

属性	详情
学习率（learning_rate）	0.0003
训练批次大小（train_batch_size）	4
评估批次大小（eval_batch_size）	8
随机种子（seed）	42
分布式类型（distributed_type）	多 GPU
设备数量（num_devices）	8
总训练批次大小（total_train_batch_size）	32
总评估批次大小（total_eval_batch_size）	64
优化器（optimizer）	Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
学习率调度器类型（lr_scheduler_type）	线性
学习率调度器热身步数（lr_scheduler_warmup_steps）	500
训练轮数（num_epochs）	15.0
混合精度训练（mixed_precision_training）	原生自动混合精度（Native AMP）