wav2vec2-xlsr-dhivehi开源语音识别模型 - 精准识别迪维希语语音内容

首页

Wav2vec2 Xlsr Dhivehi

由 sammy786 开发

这是一个基于facebook/wav2vec2-xls-r-1b模型在迪维希语(Dhivehi)语音数据集上微调的自动语音识别(ASR)模型。

语音识别

Transformers

其他开源协议:Apache-2.0 #迪维希语语音识别 #低词错误率 #多方言适应

下载量 30

发布时间 : 3/2/2022

模型简介

该模型专门针对迪维希语进行优化，用于将语音转换为文本的自动语音识别任务。

模型特点

迪维希语优化

专门针对迪维希语进行微调，提供更好的语音识别效果

基于大模型

基于facebook/wav2vec2-xls-r-1b大模型微调，继承了其强大的语音特征提取能力

高性能

在Common Voice 8测试集上取得了26.91%的WER和4.02%的CER

模型能力

迪维希语语音识别

语音转文本

支持长语音处理

使用案例

语音转录

迪维希语语音转录

将迪维希语语音内容转换为文本

准确率达到73.09%(1-WER)

语音助手

迪维希语语音交互

用于构建迪维希语语音助手

🚀 sammy786/wav2vec2-xlsr-dhivehi

本模型是 facebook/wav2vec2-xls-r-1b 在 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - dv 数据集上的微调版本。它在评估集（训练数据集的 10% 与其他和开发数据集合并而成）上取得了以下结果：

损失：14.86
字错率（Wer）：29.32

✨ 主要特性

基于预训练模型 "facebook/wav2vec2-xls-r-1b" 进行微调，适用于自动语音识别任务。

📚 详细文档

模型描述

对 "facebook/wav2vec2-xls-r-1b" 进行了微调。

预期用途和限制

更多信息待补充。

训练和评估数据

训练数据为 Common voice 芬兰语的 train.tsv、dev.tsv 和 other.tsv 文件。

训练过程

为创建训练数据集，将所有可能的数据集进行合并，并采用 90 - 10 的分割方式。

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）：0.000045637994662983496
训练批次大小（train_batch_size）：8
评估批次大小（eval_batch_size）：16
随机种子（seed）：13
梯度累积步数（gradient_accumulation_steps）：4
总训练批次大小（total_train_batch_size）：32
优化器（optimizer）：Adam，β=(0.9, 0.999)，ε=1e - 08
学习率调度器类型（lr_scheduler_type）：cosine_with_restarts
学习率调度器热身步数（lr_scheduler_warmup_steps）：500
训练轮数（num_epochs）：30
混合精度训练（mixed_precision_training）：Native AMP

训练结果

步数	训练损失	验证损失	字错率（Wer）
200	4.883800	3.190218	1.000000
400	1.600100	0.497887	0.726159
600	0.928500	0.358781	0.603892
800	0.867900	0.309132	0.570786
1000	0.743100	0.309116	0.552954
1200	0.725100	0.266839	0.538378
1400	0.786200	0.259797	0.535897
1600	0.655700	0.245691	0.517290
1800	0.650500	0.246957	0.516204
2000	0.685500	0.234808	0.516204
2200	0.487100	0.228409	0.507753
2400	0.401300	0.221087	0.495968
2600	0.359300	0.212476	0.489301
2800	0.347300	0.204848	0.487750
3000	0.327000	0.203163	0.478756
3200	0.337100	0.210235	0.487595
3400	0.308900	0.201471	0.491316
3600	0.292600	0.192437	0.476120
3800	0.289600	0.198398	0.468445
4000	0.290200	0.193484	0.467204
4200	0.272600	0.193999	0.470150
4400	0.266700	0.187384	0.460769
4600	0.253800	0.187279	0.476663
4800	0.266400	0.197395	0.466817
5000	0.258000	0.188920	0.456660
5200	0.237200	0.180770	0.457358
5400	0.237900	0.178149	0.448287
5600	0.232600	0.179827	0.461002
5800	0.228500	0.182142	0.445185
6000	0.221000	0.173619	0.440688
6200	0.219500	0.172291	0.442859
6400	0.219400	0.173339	0.430609
6600	0.201900	0.177552	0.426423
6800	0.199000	0.173157	0.429834
7000	0.200000	0.166503	0.423709
7200	0.194600	0.171812	0.429834
7400	0.192100	0.164989	0.420530
7600	0.185000	0.168355	0.418825
7800	0.175100	0.168128	0.419290
8000	0.173500	0.167959	0.424950
8200	0.172200	0.173643	0.414793
8400	0.164200	0.167020	0.406342
8600	0.170800	0.168050	0.405334
8800	0.157900	0.164290	0.396573
9000	0.159900	0.163188	0.397426
9200	0.151700	0.164370	0.390991
9400	0.146600	0.165053	0.392852
9600	0.142200	0.164939	0.391844
9800	0.148300	0.164422	0.385719
10000	0.136200	0.166569	0.385951
10200	0.140700	0.161377	0.379594
10400	0.133300	0.165194	0.378276
10600	0.131300	0.164328	0.369205
10800	0.135500	0.160254	0.373236
11000	0.121100	0.163522	0.372693

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.17.1.dev0
Tokenizers 0.10.3

💻 使用示例

评估命令

在 mozilla-foundation/common_voice_8_0 数据集的 test 分割上进行评估：

python eval.py --model_id sammy786/wav2vec2-xlsr-dhivehi --dataset mozilla-foundation/common_voice_8_0 --config dv --split test

📄 许可证

本项目采用 Apache - 2.0 许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文