wav2vec2-xlsr-estonian开源语音识别模型 - 精准识别爱沙尼亚语语音

首页

Wav2vec2 Xlsr Estonian

由 sammy786 开发

这是一个基于facebook/wav2vec2-xls-r-1b模型在爱沙尼亚语数据集上微调的自动语音识别模型。

语音识别

Transformers

其他开源协议:Apache-2.0 #爱沙尼亚语语音识别 #XLS-R微调模型 #多场景语音转写

下载量 21

发布时间 : 3/2/2022

模型简介

该模型是针对爱沙尼亚语的自动语音识别(ASR)任务进行优化的，基于Mozilla Common Voice 8.0数据集训练。

模型特点

高性能语音识别

在Common Voice测试集上达到23.61%的WER和4.6%的CER

大规模预训练模型微调

基于10亿参数的wav2vec2-xls-r-1b模型进行微调

多场景适应能力

在标准语音和鲁棒语音事件数据集上均有评估

模型能力

爱沙尼亚语语音识别

对话语音转文本

鲁棒语音处理

使用案例

语音转写

语音助手

用于开发爱沙尼亚语语音助手

会议记录

将爱沙尼亚语会议内容自动转写为文本

语音分析

语音内容分析

分析爱沙尼亚语语音内容

🚀 sammy786/wav2vec2-xlsr-estonian

该模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - et数据集上对facebook/wav2vec2 - xls - r - 1b进行微调后的版本。它在评估集（训练数据集的10%与其他和开发数据集合并而成）上取得了以下结果：

损失值：17.94
词错误率（Wer）：30.38

✨ 主要特性

基于预训练模型facebook/wav2vec2-xls-r-1b进行微调，适用于爱沙尼亚语的自动语音识别任务。
提供了详细的训练超参数和训练结果，方便复现和参考。

📚 详细文档

模型描述

对“facebook/wav2vec2 - xls - r - 1b”进行了微调。

预期用途与限制

需要更多信息。

训练和评估数据

训练数据：Common voice芬兰语的train.tsv、dev.tsv和other.tsv文件。

训练过程

为创建训练数据集，将所有可能的数据集进行拼接，并采用90 - 10的分割方式。

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）：0.000045637994662983496
训练批次大小（train_batch_size）：8
评估批次大小（eval_batch_size）：16
随机种子（seed）：13
梯度累积步数（gradient_accumulation_steps）：2
总训练批次大小（total_train_batch_size）：32
优化器（optimizer）：Adam，β值为(0.9, 0.999)，ε值为1e - 08
学习率调度器类型（lr_scheduler_type）：cosine_with_restarts
学习率调度器热身步数（lr_scheduler_warmup_steps）：500
训练轮数（num_epochs）：30
混合精度训练（mixed_precision_training）：Native AMP

训练结果

步骤	训练损失	验证损失	词错误率（Wer）
200	3.729100	1.096018	0.959867
400	0.996900	0.310228	0.443600
600	0.762900	0.210873	0.346117
800	0.621400	0.200381	0.331513
1000	0.408000	0.196382	0.322014
1200	0.320200	0.176281	0.312515
1400	0.315300	0.179433	0.303847
1600	0.445800	0.420985	0.315839
1800	0.644600	0.433833	0.354904
2000	0.550900	0.327117	0.336500
2200	0.498600	0.289830	0.325457
2400	0.488300	0.294309	0.314177
2600	0.491700	0.311175	0.318689
2800	0.508500	0.314744	0.320470
3000	0.499900	0.314834	0.320589

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.0 + cu102
Datasets 1.17.1.dev0
Tokenizers 0.10.3

评估命令

在mozilla - foundation/common_voice_8_0数据集的test分割上进行评估：

python eval.py --model_id sammy786/wav2vec2-xlsr-estonian --dataset mozilla-foundation/common_voice_8_0 --config et --split test

📄 许可证

本项目采用Apache 2.0许可证。

模型指标信息

属性	详情
模型类型	自动语音识别模型
训练数据	Common voice芬兰语的train.tsv、dev.tsv和other.tsv文件

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文