wav2vec2-xls-r-300m-rm-sursilv-d11开源语音识别模型 - 精准识别罗曼什语-苏塞尔瓦方言

首页

Wav2vec2 Xls R 300m Rm Sursilv D11

由 DrishtiSharma 开发

该模型是基于facebook/wav2vec2-xls-r-300m在罗曼什语-苏塞尔瓦方言数据集上微调的自动语音识别模型，在Common Voice 8测试集上取得了24.09%的词错误率(WER)。

语音识别

Transformers

开源协议:Apache-2.0 #罗曼什语语音识别 #低词错误率(WER)#Common Voice适配

下载量 20

发布时间 : 3/2/2022

模型简介

这是一个用于罗曼什语-苏塞尔瓦方言的自动语音识别模型，基于wav2vec2-xls-r-300m架构微调而成，适用于将语音转换为文本的任务。

模型特点

低资源语言支持

专门针对罗曼什语-苏塞尔瓦方言这一低资源语言进行优化

高性能

在Common Voice 8测试集上取得了24.09%的词错误率(WER)和4.98%的字错误率(CER)

基于XLS-R架构

使用Facebook的wav2vec2-xls-r-300m作为基础模型，具有强大的语音特征提取能力

模型能力

语音识别

语音转文本

罗曼什语-苏塞尔瓦方言处理

使用案例

语音转录

罗曼什语语音转录

将罗曼什语-苏塞尔瓦方言的语音内容转换为文本

在Common Voice 8测试集上WER为24.09%

语音辅助技术

罗曼什语语音助手

为罗曼什语使用者开发语音控制应用

🚀 wav2vec2-xls-r-300m-rm-sursilv-d11模型

本模型是基于MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - RM - SURSILV数据集对facebook/wav2vec2-xls-r-300m进行微调后的版本。它在语音识别任务中表现出色，能够有效处理相关语音数据。

✨ 主要特性

基于预训练模型facebook/wav2vec2-xls-r-300m进行微调，在特定数据集上优化了性能。
支持自动语音识别任务，可用于语音识别相关应用。

📦 安装指南

文档未提及安装步骤，暂不展示。

💻 使用示例

文档未提及使用示例代码，暂不展示。

📚 详细文档

评估结果

该模型在评估集上取得了以下结果：

损失值（Loss）: 0.2511
字错率（Wer）: 0.2415

评估命令

在mozilla-foundation/common_voice_8_0测试分割集上进行评估

python eval.py --model_id DrishtiSharma/wav2vec2-xls-r-300m-rm-sursilv-d11 --dataset mozilla-foundation/common_voice_8_0 --config rm-sursilv --split test --log_outputs

在speech-recognition-community-v2/dev_data上进行评估罗曼什 - 苏尔西尔夫语（Romansh - Sursilv）在speech-recognition-community-v2/dev_data中不可用。

训练超参数

训练过程中使用了以下超参数：

参数	详情
学习率（learning_rate）	7e - 05
训练批次大小（train_batch_size）	32
评估批次大小（eval_batch_size）	16
随机种子（seed）	42
优化器（optimizer）	Adam（betas=(0.9, 0.999)，epsilon = 1e - 08）
学习率调度器类型（lr_scheduler_type）	线性（linear）
学习率调度器热身步数（lr_scheduler_warmup_steps）	2000
训练轮数（num_epochs）	125.0
混合精度训练（mixed_precision_training）	原生自动混合精度（Native AMP）

训练结果

训练损失（Training Loss）	轮数（Epoch）	步数（Step）	验证损失（Validation Loss）	字错率（Wer）
2.3958	17.44	1500	0.6808	0.6521
0.9663	34.88	3000	0.3023	0.3718
0.7963	52.33	4500	0.2588	0.3046
0.6893	69.77	6000	0.2436	0.2718
0.6148	87.21	7500	0.2521	0.2572
0.5556	104.65	9000	0.2490	0.2442
0.5258	122.09	10500	0.2515	0.2442