sew-tiny-portuguese-cv8开源模型 - 免费部署精准识别葡萄牙语语音

首页

Sew Tiny Portuguese Cv8

由 lgris 开发

这是一个基于SEW-tiny架构的葡萄牙语自动语音识别模型，在Common Voice 8数据集上微调，适用于葡萄牙语语音识别任务。

语音识别

Transformers

其他开源协议:Apache-2.0 #葡萄牙语语音识别 #低资源优化 #多场景评估

下载量 16

发布时间 : 3/2/2022

模型简介

该模型是基于lgris/sew-tiny-pt在common_voice数据集上微调的版本，主要用于葡萄牙语的自动语音识别(ASR)任务。

模型特点

葡萄牙语优化

专门针对葡萄牙语语音识别任务进行优化和微调

基于Common Voice数据集

使用Mozilla Common Voice 8.0数据集进行训练，具有良好的数据基础

轻量级架构

采用SEW-tiny架构，适合资源有限的环境

模型能力

葡萄牙语语音识别

语音转文本

多场景语音处理

使用案例

语音转录

葡萄牙语语音转录

将葡萄牙语语音内容转换为文本

在Common Voice 8测试集上WER为33.71

语音助手

葡萄牙语语音指令识别

用于葡萄牙语语音助手的前端语音识别

🚀 sew-tiny-portuguese-cv8

本模型是 lgris/sew-tiny-pt 在 common_voice 数据集上的微调版本。它在评估集上取得了以下结果：

损失值：0.4082
词错误率（Wer）：0.3053

🚀 快速开始

此部分文档未提供相关内容，若有需要可进一步补充。

✨ 主要特性

此部分文档未提供相关内容，若有需要可进一步补充。

📦 安装指南

此部分文档未提供相关内容，若有需要可进一步补充。

📚 详细文档

模型描述

更多信息待补充。

预期用途与限制

更多信息待补充。

训练和评估数据

更多信息待补充。

训练过程

训练超参数

训练期间使用了以下超参数：

学习率（learning_rate）：0.0001
训练批次大小（train_batch_size）：8
评估批次大小（eval_batch_size）：8
随机种子（seed）：42
梯度累积步数（gradient_accumulation_steps）：4
总训练批次大小（total_train_batch_size）：32
优化器（optimizer）：Adam，β值为(0.9, 0.999)，ε值为 1e-08
学习率调度器类型（lr_scheduler_type）：线性
学习率调度器热身步数（lr_scheduler_warmup_steps）：1000
训练步数（training_steps）：40000
混合精度训练（mixed_precision_training）：原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
无记录	1.93	1000	2.9134	0.9767
2.9224	3.86	2000	2.8405	0.9789
2.9224	5.79	3000	2.8094	0.9800
2.8531	7.72	4000	2.7439	0.9891
2.8531	9.65	5000	2.7057	1.0159
2.7721	11.58	6000	2.7235	1.0709
2.7721	13.51	7000	2.5931	1.1035
2.6566	15.44	8000	2.2171	0.9884
2.6566	17.37	9000	1.2399	0.8081
1.9558	19.31	10000	0.9045	0.6353
1.9558	21.24	11000	0.7705	0.5533
1.4987	23.17	12000	0.7068	0.5165
1.4987	25.1	13000	0.6641	0.4718
1.3811	27.03	14000	0.6043	0.4470
1.3811	28.96	15000	0.5532	0.4268
1.2897	30.89	16000	0.5371	0.4101
1.2897	32.82	17000	0.5924	0.4150
1.225	34.75	18000	0.4949	0.3894
1.225	36.68	19000	0.5591	0.4045
1.193	38.61	20000	0.4927	0.3731
1.193	40.54	21000	0.4922	0.3712
1.1482	42.47	22000	0.4799	0.3662
1.1482	44.4	23000	0.4846	0.3648
1.1201	46.33	24000	0.4770	0.3623
1.1201	48.26	25000	0.4530	0.3426
1.0892	50.19	26000	0.4523	0.3527
1.0892	52.12	27000	0.4573	0.3443
1.0583	54.05	28000	0.4488	0.3353
1.0583	55.98	29000	0.4295	0.3285
1.0319	57.92	30000	0.4321	0.3220
1.0319	59.85	31000	0.4244	0.3236
1.0076	61.78	32000	0.4197	0.3201
1.0076	63.71	33000	0.4230	0.3208
0.9851	65.64	34000	0.4090	0.3127
0.9851	67.57	35000	0.4088	0.3133
0.9695	69.5	36000	0.4123	0.3088
0.9695	71.43	37000	0.4017	0.3090
0.9514	73.36	38000	0.4184	0.3086
0.9514	75.29	39000	0.4075	0.3043
0.944	77.22	40000	0.4082	0.3053

框架版本

Transformers：4.16.0.dev0
Pytorch：1.10.1+cu102
Datasets：1.17.1.dev0
Tokenizers：0.11.0

🔧 技术细节

此部分文档未提供相关内容，若有需要可进一步补充。

📄 许可证

本模型采用 Apache-2.0 许可证。

模型指标

任务	数据集	指标	值
自动语音识别	Common Voice 8	测试词错误率（Test WER）	33.71
自动语音识别	Common Voice 8	测试字符错误率（Test CER）	10.69
自动语音识别	Robust Speech Event - Dev Data（瑞典语）	测试词错误率（Test WER）	52.79
自动语音识别	Robust Speech Event - Dev Data（瑞典语）	测试字符错误率（Test CER）	20.98
自动语音识别	Robust Speech Event - Dev Data（葡萄牙语）	测试词错误率（Test WER）	53.18
自动语音识别	Robust Speech Event - Test Data（葡萄牙语）	测试词错误率（Test WER）	55.23