wav2vec2-large-xls-r-300m-sakha开源模型 - 精准识别雅库特语语音内容

首页

Wav2vec2 Large Xls R 300m Sakha

由 infinitejoy 开发

基于facebook/wav2vec2-xls-r-300m在雅库特语(SAH)数据集上微调的自动语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #雅库特语语音识别 #低资源语言ASR #多方言鲁棒性

下载量 18

发布时间 : 3/2/2022

模型简介

这是一个专门针对雅库特语优化的自动语音识别(ASR)模型，基于XLS-R-300M架构，在Common Voice 7的雅库特语数据集上进行了微调。

模型特点

雅库特语优化

专门针对雅库特语进行微调，在该语言上表现优于通用语音模型

基于XLS-R架构

采用强大的XLS-R-300M架构，具备良好的语音特征提取能力

中等规模

300M参数规模，在性能和资源消耗之间取得平衡

模型能力

雅库特语语音识别

语音转文本

鲁棒语音处理

使用案例

语音转录

雅库特语语音转录

将雅库特语语音内容转换为文本

CER:10.271%, WER:44.196%

语音助手

雅库特语语音交互

为雅库特语用户提供语音交互能力

🚀 wav2vec2-large-xls-r-300m-sakha

该模型是基于MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - SAH数据集对facebook/wav2vec2 - xls - r - 300m进行微调后的版本。它在评估集上取得了以下结果：

损失值：0.4995
词错误率（Wer）：0.4421

✨ 主要特性

基于SAH数据集对预训练模型进行微调，适用于自动语音识别任务。
在评估集上有特定的损失值和词错误率表现。

📦 安装指南

文档未提供安装步骤，故跳过此章节。

💻 使用示例

文档未提供代码示例，故跳过此章节。

📚 详细文档

模型描述

需要更多信息。

预期用途与限制

需要更多信息。

训练和评估数据

需要更多信息。

🔧 技术细节

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：0.0003
训练批次大小：32
评估批次大小：1
随机种子：42
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
学习率调度器预热步数：500
训练轮数：100.0
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
1.8597	8.47	500	0.7731	0.7211
1.2508	16.95	1000	0.5368	0.5989
1.1066	25.42	1500	0.5034	0.5533
1.0064	33.9	2000	0.4686	0.5114
0.9324	42.37	2500	0.4927	0.5056
0.876	50.85	3000	0.4734	0.4795
0.8082	59.32	3500	0.4748	0.4799
0.7604	67.8	4000	0.4949	0.4691
0.7241	76.27	4500	0.5090	0.4627
0.6739	84.75	5000	0.4967	0.4452
0.6447	93.22	5500	0.5071	0.4437

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.1+cu102
Datasets 1.17.1.dev0
Tokenizers 0.11.0

📄 许可证

本模型使用Apache - 2.0许可证。

模型信息表格

属性	详情
模型类型	基于MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - SAH数据集微调的wav2vec2 - large - xls - r - 300m模型
训练数据	MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - SAH数据集
语言	萨哈语（sah）
标签	自动语音识别、mozilla - foundation/common_voice_7_0、generated_from_trainer、sah、robust - speech - event、model_for_talk、hf - asr - leaderboard
评估结果	损失：0.4995；Wer：0.4421