wav2vec2-large-xls-r-300m-urdu开源语音识别模型 - 支持乌尔都语语音自动识别

首页

Wav2vec2 Large Xls R 300m Urdu

由 infinitejoy 开发

这是一个基于facebook/wav2vec2-xls-r-300m在乌尔都语Common Voice 7数据集上微调的自动语音识别模型。

语音识别

Transformers

其他开源协议:Apache-2.0 #乌尔都语语音识别 #多方言支持 #低资源优化

下载量 15

发布时间 : 3/2/2022

模型简介

该模型主要用于乌尔都语的自动语音识别任务，能够将乌尔都语语音转换为文本。

模型特点

乌尔都语语音识别

专门针对乌尔都语优化的语音识别能力

基于XLS-R架构

使用Facebook的XLS-R-300M预训练模型作为基础

Common Voice数据集训练

在Mozilla Common Voice 7乌尔都语数据集上微调

模型能力

乌尔都语语音转文本

自动语音识别

使用案例

语音转录

乌尔都语语音转录

将乌尔都语语音内容转换为文本

语音助手

乌尔都语语音交互

为乌尔都语语音助手提供识别能力

🚀 XLS - R - 300M - 乌尔都语模型

本模型是一个用于自动语音识别的模型，基于预训练模型微调而来，在乌尔都语语音识别任务上有着特定的评估结果，可应用于相关语音识别场景。

🚀 快速开始

该模型是 facebook/wav2vec2 - xls - r - 300m 在 MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - - UR 数据集上的微调版本。它在评估集上取得了以下结果：

损失：未提供
字错率（Wer）：未提供

评估命令

在 mozilla - foundation/common_voice_7_0 数据集的 test 分割上进行评估：

python eval.py \
    --model_id infinitejoy/wav2vec2-large-xls-r-300m-urdu --dataset speech-recognition-community-v2/dev_data \
    --config ur --split validation --chunk_length_s 10 --stride_length_s 1

推理示例

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F


model_id = "infinitejoy/wav2vec2-large-xls-r-300m-urdu"

sample_iter = iter(load_dataset("mozilla-foundation/common_voice_7_0", "ur", split="test", streaming=True, use_auth_token=True))

sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()

model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)

input_values = processor(resampled_audio, return_tensors="pt").input_values

with torch.no_grad():
    logits = model(input_values).logits

transcription = processor.batch_decode(logits.numpy()).text

通用语音 7 “测试” 集上的评估结果（字错率）

文档未明确给出具体评估结果数值。

✨ 主要特性

微调模型：基于 facebook/wav2vec2 - xls - r - 300m 模型在乌尔都语数据集上进行微调。
多框架支持：与 Transformers、Pytorch、Datasets、Tokenizers 等框架兼容。

📦 安装指南

文档未提供具体安装步骤。

📚 详细文档

模型描述

更多信息待补充。

预期用途和限制

更多信息待补充。

训练和评估数据

更多信息待补充。

🔧 技术细节

训练超参数

训练期间使用了以下超参数：

学习率：7.5e - 05
训练批次大小：8
评估批次大小：8
随机种子：42
梯度累积步数：4
总训练批次大小：32
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
学习率调度器热身步数：2000
训练轮数：50.0
混合精度训练：Native AMP

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.0 + cu102
Datasets 1.17.1.dev0
Tokenizers 0.10.3

📄 许可证

本模型使用 Apache - 2.0 许可证。

📋 模型信息表格

属性	详情
模型类型	自动语音识别模型
训练数据	MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - - UR 数据集
模型名称	XLS - R - 300M - 乌尔都语
评估指标（测试集字错率）	105.66
评估指标（测试集字符错误率）	434.011