wav2vec2-large-xlsr-bengali开源模型 - 精准实现孟加拉语自动语音识别

首页

Wav2vec2 Large Xlsr Bengali

由 arijitx 开发

基于 facebook/wav2vec2-large-xlsr-53 微调的孟加拉语自动语音识别模型，使用 OpenSLR 数据集中的4万条语音训练

语音识别其他#孟加拉语语音识别 #低资源语言ASR #XLSR-53微调

下载量 758

发布时间 : 3/2/2022

模型简介

这是一个专门用于孟加拉语自动语音识别(ASR)的模型，能够将孟加拉语语音转换为文本。

模型特点

高精度孟加拉语识别

专门针对孟加拉语优化的语音识别模型，在测试集上达到32.45%的词错误率

基于XLSR架构

基于facebook的wav2vec2-large-xlsr-53模型微调，利用了跨语言语音表示学习

大规模训练数据

使用OpenSLR数据集中约4万条孟加拉语语音进行训练

模型能力

孟加拉语语音识别

音频转文本

16kHz采样率语音处理

使用案例

语音转写

孟加拉语语音转录

将孟加拉语语音内容转换为文本格式

词错误率32.45%

语音助手

孟加拉语语音交互

为孟加拉语语音助手提供语音识别能力

🚀 Wav2Vec2-Large-XLSR-孟加拉语模型

本项目基于facebook/wav2vec2-large-xlsr-53模型，使用来自包含约19.6万个语音片段的孟加拉语自动语音识别训练数据集中的4万个语音片段子集进行微调。使用从训练集中预留的约4200个语音片段进行测试，得到字错率（WER）。使用此模型时，请确保输入的语音采样率为16kHz。

属性	详情
模型类型	微调后的Wav2Vec2-Large-XLSR孟加拉语模型
训练数据	来自包含约19.6万个语音片段的孟加拉语自动语音识别训练数据集的4万个语音片段子集
评估指标	字错率（WER）
标签	孟加拉语、音频、自动语音识别、语音
许可证	知识共享署名-相同方式共享4.0国际许可协议（cc-by-sa-4.0）

🚀 快速开始

本模型可直接使用（无需语言模型），具体操作如下：

训练脚本：train.py
数据准备笔记本：点击查看
推理笔记本：点击查看

💻 使用示例

基础用法

import torch
import torchaudio
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

processor = Wav2Vec2Processor.from_pretrained("arijitx/wav2vec2-large-xlsr-bengali")
model = Wav2Vec2ForCTC.from_pretrained("arijitx/wav2vec2-large-xlsr-bengali")
# model = model.to("cuda")

resampler = torchaudio.transforms.Resample(TEST_AUDIO_SR, 16_000)
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = torchaudio.load(batch)
    speech =  resampler(speech_array).squeeze().numpy()
    return speech

speech_array = speech_file_to_array_fn("test_file.wav")
inputs = processor(speech_array, sampling_rate=16_000, return_tensors="pt", padding=True)
with torch.no_grad():
    logits = model(inputs.input_values).logits

    
predicted_ids = torch.argmax(logits, dim=-1)
preds = processor.batch_decode(predicted_ids)[0]
print(preds.replace("[PAD]",""))