wav2vec2-xlsr-romansh_sursilvan开源语音识别模型 - 精准识别罗曼什语-苏塞尔瓦方言

首页

Wav2vec2 Xlsr Romansh Sursilvan

由 sammy786 开发

该模型是基于facebook/wav2vec2-xls-r-1b在罗曼什语-苏塞尔瓦方言数据集上微调的自动语音识别模型，在Common Voice 8测试集上取得13.82%的词错误率(WER)。

语音识别

Transformers

开源协议:Apache-2.0 #罗曼什语语音识别 #低词错误率(WER13.82)#XLS-R1B微调

下载量 18

发布时间 : 3/2/2022

模型简介

这是一个针对罗曼什语-苏塞尔瓦方言优化的自动语音识别模型，基于Facebook的wav2vec2-xls-r-1b架构微调而成。

模型特点

低词错误率

在罗曼什语-苏塞尔瓦方言测试集上取得13.82%的词错误率(WER)和3.02%的字错误率(CER)

基于大模型微调

基于facebook/wav2vec2-xls-r-1b大模型微调，继承了其强大的语音特征提取能力

多数据集训练

合并了Common Voice芬兰语train.tsv、dev.tsv和other.tsv等多个数据集进行训练

模型能力

罗曼什语-苏塞尔瓦方言语音识别

鲁棒语音事件检测

对话语音处理

使用案例

语音转录

罗曼什语-苏塞尔瓦方言语音转文字

将罗曼什语-苏塞尔瓦方言的语音内容转换为文字

词错误率13.82%，字错误率3.02%

语音助手

罗曼什语-苏塞尔瓦方言语音助手

支持罗曼什语-苏塞尔瓦方言的语音交互系统

🚀 sammy786/wav2vec2-xlsr-romansh_sursilvan

这个模型是 facebook/wav2vec2-xls-r-1b 在 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - rm-sursilv 数据集上的微调版本。它在评估集（训练数据集的 10% 与其他和开发数据集合并）上取得了以下结果：

损失：16.38
字错率（Wer）：21.25

✨ 主要特性

基于预训练模型 "facebook/wav2vec2-xls-r-1b" 进行微调。
在特定数据集上进行训练，以适应相关语音识别任务。

📚 详细文档

模型描述

对 "facebook/wav2vec2-xls-r-1b" 进行了微调。

预期用途与限制

需要更多信息。

训练和评估数据

训练数据：Common voice Finnish train.tsv、dev.tsv 和 other.tsv

训练过程

为创建训练数据集，将所有可能的数据集进行合并，并采用 90 - 10 的分割方式。

训练超参数

训练期间使用了以下超参数：

学习率（learning_rate）：0.000045637994662983496
训练批次大小（train_batch_size）：16
评估批次大小（eval_batch_size）：16
随机种子（seed）：13
梯度累积步数（gradient_accumulation_steps）：2
总训练批次大小（total_train_batch_size）：32
优化器（optimizer）：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
学习率调度器类型（lr_scheduler_type）：cosine_with_restarts
学习率调度器热身步数（lr_scheduler_warmup_steps）：500
训练轮数（num_epochs）：40
混合精度训练（mixed_precision_training）：Native AMP

训练结果

步骤	训练损失	验证损失	字错率（Wer）
200	4.825500	2.932350	1.000000
400	1.325600	0.292645	0.415436
600	0.709800	0.219167	0.324451
800	0.576800	0.174390	0.275477
1000	0.538100	0.183737	0.272116
1200	0.475200	0.159078	0.253871
1400	0.420400	0.167277	0.240907
1600	0.393500	0.167216	0.247269
1800	0.407500	0.178282	0.239827
2000	0.374400	0.184590	0.239467
2200	0.382600	0.164106	0.227824
2400	0.363100	0.162543	0.228544
2600	0.199000	0.172903	0.231665
2800	0.150800	0.160117	0.222662
3000	0.101100	0.169553	0.222662
3200	0.104200	0.161056	0.220622
3400	0.096900	0.161562	0.216781
3600	0.092200	0.163880	0.212580
3800	0.089200	0.162288	0.214140
4000	0.076200	0.160470	0.213540
4200	0.087900	0.162827	0.213060
4400	0.066200	0.161096	0.213300
4600	0.076000	0.162060	0.213660
4800	0.071400	0.162045	0.213300

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.17.1.dev0
Tokenizers 0.10.3

评估命令

在 mozilla-foundation/common_voice_8_0 数据集的 test 分割上进行评估：

python eval.py --model_id sammy786/wav2vec2-xlsr-romansh_sursilvan --dataset mozilla-foundation/common_voice_8_0 --config rm-sursilv --split test

📄 许可证

本模型采用 Apache-2.0 许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文