wav2vec2-large-xls-r-300m-as开源自动语音识别模型

首页

Wav2vec2 Large Xls R 300m As

由 anuragshas 开发

基于Facebook wav2vec2-xls-r-300m模型在Common Voice 7阿萨姆语(AS)数据集上微调的自动语音识别(ASR)模型

语音识别

Transformers

其他开源协议:Apache-2.0 #阿萨姆语语音识别 #多方言鲁棒性 #低资源语言处理

下载量 19

发布时间 : 3/2/2022

模型简介

该模型是针对阿萨姆语的自动语音识别系统，能够将阿萨姆语语音转换为文本

模型特点

多语言支持

基于Facebook的多语言wav2vec2-xls-r模型，支持包括阿萨姆语在内的多种语言

高效训练

使用梯度累积等技术优化训练过程，在有限资源下实现高效训练

鲁棒性

模型在Common Voice数据集上训练，具有一定程度的语音变化鲁棒性

模型能力

阿萨姆语语音识别

语音转文本

支持16kHz采样率音频处理

使用案例

语音转录

阿萨姆语语音转录

将阿萨姆语语音内容转换为文本

词错误率56.995%(使用语言模型)

语音助手

阿萨姆语语音指令识别

用于理解阿萨姆语语音命令

🚀 wav2vec2-large-xls-r-300m-as

该模型是在common_voice数据集上对facebook/wav2vec2-xls-r-300m进行微调后的版本。它在评估集上取得了以下结果：

损失值：1.9068
字错率（Wer）：0.6679

✨ 主要特性

基于预训练模型facebook/wav2vec2-xls-r-300m在common_voice数据集上微调，适用于自动语音识别任务。
在评估集上有明确的损失值和字错率指标。

📦 安装指南

文档未提供安装相关内容，故跳过此章节。

💻 使用示例

基础用法

以下是使用该模型进行推理的示例代码：

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "anuragshas/wav2vec2-large-xls-r-300m-as"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_7_0", "as", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
    logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
# => "জাহাজত তো তিশকুৰলৈ যাব কিন্তু জহাজিটো আহিপনে"

评估命令

在mozilla-foundation/common_voice_7_0数据集的test分割上进行评估：

python eval.py --model_id anuragshas/wav2vec2-large-xls-r-300m-as --dataset mozilla-foundation/common_voice_7_0 --config as --split test

评估结果

在Common Voice 7 "test" 数据集上的字错率（WER）评估结果如下：

无语言模型	使用语言模型（运行 `./eval.py`）
67	56.995

📚 详细文档

模型描述

更多信息待补充。

预期用途与限制

更多信息待补充。

训练和评估数据

更多信息待补充。

🔧 技术细节

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）：0.0003
训练批次大小（train_batch_size）：16
评估批次大小（eval_batch_size）：8
随机种子（seed）：42
梯度累积步数（gradient_accumulation_steps）：2
总训练批次大小（total_train_batch_size）：32
优化器（optimizer）：Adam，β=(0.9, 0.999)，ε=1e - 08
学习率调度器类型（lr_scheduler_type）：线性
学习率调度器热身比例（lr_scheduler_warmup_ratio）：0.12
训练轮数（num_epochs）：240

训练结果

训练损失	轮数	步数	验证损失	字错率（Wer）
5.7027	21.05	400	3.4157	1.0
1.1638	42.1	800	1.3498	0.7461
0.2266	63.15	1200	1.6147	0.7273
0.1473	84.21	1600	1.6649	0.7108
0.1043	105.26	2000	1.7691	0.7090
0.0779	126.31	2400	1.8300	0.7009
0.0613	147.36	2800	1.8681	0.6916
0.0471	168.41	3200	1.8567	0.6875
0.0343	189.46	3600	1.9054	0.6840
0.0265	210.51	4000	1.9020	0.6786
0.0219	231.56	4400	1.9068	0.6679