wav2vec2-large-xls-r-300m-as-v9开源模型 - 支持阿萨姆语自动语音识别

首页

Wav2vec2 Large Xls R 300m As V9

由 DrishtiSharma 开发

基于facebook/wav2vec2-xls-r-300m在阿萨姆语(Common Voice 8.0)数据集上微调的自动语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #阿萨姆语语音识别 #低资源语言处理 #XLS-R架构优化

下载量 20

发布时间 : 3/2/2022

模型简介

这是一个针对阿萨姆语的自动语音识别(ASR)模型，基于wav2vec2架构的大规模预训练模型微调而来，适用于语音转文本任务。

模型特点

阿萨姆语优化

专门针对阿萨姆语进行微调，在该语言上具有较好的识别性能

大规模预训练基础

基于facebook/wav2vec2-xls-r-300m预训练模型，具有强大的语音特征提取能力

多场景适应

在Common Voice数据集上训练，能够适应多种语音场景

模型能力

阿萨姆语语音识别

语音转文本

自动语音转录

使用案例

语音转录

阿萨姆语语音转写

将阿萨姆语语音内容转换为文本

在Common Voice 8.0测试集上WER为61.64%

语音助手

阿萨姆语语音交互

支持阿萨姆语语音指令识别

🚀 wav2vec2-large-xls-r-300m-as-v9

本模型是在通用语音数据集（common_voice dataset）上对 facebook/wav2vec2-xls-r-300m 进行微调后的版本。它在自动语音识别任务中表现出色，为语音识别领域提供了有力的支持。

✨ 主要特性

多数据集适配：支持 mozilla-foundation/common_voice_8_0 等多个数据集。
多指标评估：使用 WER（词错误率）和 CER（字符错误率）等指标进行评估。

📦 安装指南

文档未提供安装步骤，跳过该章节。

💻 使用示例

文档未提供代码示例，跳过该章节。

📚 详细文档

模型信息

属性	详情
语言	as
许可证	apache-2.0
标签	automatic-speech-recognition、mozilla-foundation/common_voice_8_0、generated_from_trainer、as、robust-speech-event、model_for_talk、hf-asr-leaderboard
数据集	mozilla-foundation/common_voice_8_0

模型评估结果

模型名称

wav2vec2-large-xls-r-300m-as-v9

评估结果

任务	数据集	测试 WER	测试 CER
自动语音识别	Common Voice 8 (hsb)	0.6163737676810973	0.19496397642093005
自动语音识别	Robust Speech Event - Dev Data (as)	NA	NA
自动语音识别	Common Voice 8.0 (as)	61.64	未提供

评估命令

在 mozilla-foundation/common_voice_8_0 测试集上进行评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-as-v9 --dataset mozilla-foundation/common_voice_8_0 --config as --split test --log_outputs

在 speech-recognition-community-v2/dev_data 上进行评估

⚠️ 重要提示

阿萨姆语（as）在 speech-recognition-community-v2/dev_data 数据集中不可用。

训练超参数

学习率：0.000111
训练批次大小：16
评估批次大小：8
随机种子：42
梯度累积步数：2
总训练批次大小：32
优化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型：线性
学习率调度器热身步数：300
训练轮数：200
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	WER
8.3852	10.51	200	3.6402	1.0
3.5374	21.05	400	3.3894	1.0
2.8645	31.56	600	1.3143	0.8303
1.1784	42.1	800	0.9417	0.6661
0.7805	52.62	1000	0.9292	0.6237
0.5973	63.15	1200	0.9489	0.6014
0.4784	73.67	1400	0.9916	0.5962
0.4138	84.21	1600	1.0272	0.6121
0.3491	94.72	1800	1.0412	0.5984
0.3062	105.26	2000	1.0769	0.6005
0.2707	115.77	2200	1.0708	0.5752
0.2459	126.31	2400	1.1285	0.6009
0.2234	136.82	2600	1.1209	0.5949
0.2035	147.36	2800	1.1348	0.5842
0.1876	157.87	3000	1.1480	0.5872
0.1669	168.41	3200	1.1496	0.5838
0.1595	178.92	3400	1.1721	0.5778
0.1505	189.46	3600	1.1654	0.5744
0.1486	199.97	3800	1.1679	0.5761