xls-r-kyrgiz-cv8开源语音识别模型 - 免费部署精准识别吉尔吉斯语语音

首页

Xls R Kyrgiz Cv8

由 lucio 开发

该模型是基于facebook/wav2vec2-xls-r-300m在Common Voice 8.0吉尔吉斯语数据集上微调的自动语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #吉尔吉斯语语音识别 #低资源语言处理 #WER优化

下载量 16

发布时间 : 3/2/2022

模型简介

针对吉尔吉斯语优化的语音识别模型，适用于从语音到文本的转换任务

模型特点

低词错误率

在测试集上达到19.01%的WER（带语言模型）

多场景适用

针对低保真度语音场景优化，适用于多种实际应用

渐进式学习

采用渐进式学习率调度策略，优化训练效果

模型能力

吉尔吉斯语语音识别

语音转文本

音频内容索引

使用案例

媒体处理

视频字幕生成

为吉尔吉斯语视频内容自动生成字幕草稿

WER 19.01%（带语言模型）

广播内容索引

对录制的吉尔吉斯语广播节目进行内容索引

CER 5.38%（带语言模型）

🚀 XLS - R - 300M 吉尔吉斯语 CV8

此模型是基于自动语音识别技术的模型，在吉尔吉斯语语音处理方面有一定表现，通过在特定数据集上微调，能为低保真度语音应用场景提供支持。

🚀 快速开始

该模型是 facebook/wav2vec2 - xls - r - 300m 在 MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - KY 数据集上的微调版本。它在验证集上取得了以下结果：

损失值：0.5497
词错误率（Wer）：0.2945
字符错误率（Cer）：0.0791

✨ 主要特性

模型描述

关于模型架构的描述，请参考 facebook/wav2vec2 - xls - r - 300m。模型的词汇表由去除标点的西里尔字母组成。 kenlm 语言模型是使用训练和无效语料库分割的文本构建的。

预期用途和限制

该模型预计对以下低保真度用例有一定帮助：

草稿视频字幕
录制广播的索引

该模型不够可靠，不能用作无障碍目的的实时字幕替代品，并且不应以侵犯 Common Voice 数据集的任何贡献者或任何其他说话者隐私的方式使用。

训练和评估数据

使用了通用语音官方分割的 train、dev 和 other 的组合作为训练数据。官方 test 分割的一半用作验证数据，完整的 test 集用于最终评估。

训练过程

在对吉尔吉斯语 CV8 示例句子调整最终的 CTC/LM 层时，XLS - R 模型的特征化层被冻结。使用了斜坡学习率，初始热身阶段为 500 步，最大值为 0.0001，并在剩余的 8100 步（300 个 epoch）中逐渐冷却至 0。

训练超参数

训练期间使用了以下超参数：

属性	详情
学习率	0.0001
训练批次大小	32
评估批次大小	8
随机种子	42
梯度累积步数	4
总训练批次大小	128
优化器	Adam，β=(0.9, 0.999)，ε = 1e - 08
学习率调度器类型	线性
学习率调度器热身步数	500
训练轮数	300.0
混合精度训练	原生 AMP

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）	字符错误率（Cer）
3.1079	18.51	500	2.6795	0.9996	0.9825
0.8506	37.04	1000	0.4323	0.3718	0.0961
0.6821	55.55	1500	0.4105	0.3311	0.0878
0.6091	74.07	2000	0.4281	0.3168	0.0851
0.5429	92.58	2500	0.4525	0.3147	0.0842
0.5063	111.11	3000	0.4619	0.3144	0.0839
0.4661	129.62	3500	0.4660	0.3039	0.0818
0.4353	148.15	4000	0.4695	0.3083	0.0820
0.4048	166.65	4500	0.4909	0.3085	0.0824
0.3852	185.18	5000	0.5074	0.3048	0.0812
0.3567	203.69	5500	0.5111	0.3012	0.0810
0.3451	222.22	6000	0.5225	0.2982	0.0804
0.325	240.73	6500	0.5270	0.2955	0.0796
0.3089	259.25	7000	0.5381	0.2929	0.0793
0.2941	277.76	7500	0.5565	0.2923	0.0794
0.2945	296.29	8000	0.5495	0.2951	0.0789