wav2vec2开源俄语语音识别模型 - 免费使用精准识别语音内容

首页

Wav2vec2 Large 100k Voxpopuli Ft Common Voice Plus TTS Dataset Russian

由 Edresson 开发

这是一个基于Facebook的wav2vec2-large-100k-voxpopuli模型，使用Common Voice 7.0和M-AILABS俄语数据进行微调的语音识别模型。

语音识别

Transformers

其他开源协议:Apache-2.0 #俄语语音识别 #高精度WER24.8 #多源数据微调

下载量 25

发布时间 : 3/2/2022

模型简介

该模型主要用于俄语语音识别任务，能够将俄语语音转换为文本。

模型特点

高精度俄语语音识别

在Common Voice 7.0俄语测试集上达到24.80%的词错误率(WER)。

多数据源训练

结合了Common Voice和M-AILABS两个高质量的俄语语音数据集进行微调。

基于Transformer架构

采用先进的wav2vec2架构，具有强大的语音特征提取能力。

模型能力

俄语语音识别

语音转文本

音频处理

使用案例

语音转录

俄语语音转写

将俄语语音内容转换为文本格式

词错误率24.80%

语音助手

俄语语音指令识别

用于俄语语音助手或智能家居设备的语音指令识别

🚀 Wav2vec2 Large 100k Voxpopuli 基于Common Voice和M - AILABS的俄语微调模型

本项目是将 Wav2vec2 Large 100k Voxpopuli 模型使用Common Voice 7.0和M - AILABS数据集进行俄语微调后的成果，可用于俄语的自动语音识别任务。

🚀 快速开始

安装依赖

本项目使用Python和相关的深度学习库，你可以通过以下方式安装所需的库：

pip install transformers torchaudio datasets jiwer

加载模型和分词器

from transformers import AutoTokenizer, Wav2Vec2ForCTC
  
tokenizer = AutoTokenizer.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common-Voice_plus_TTS-Dataset-russian")
model = Wav2Vec2ForCTC.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common-Voice_plus_TTS-Dataset-russian")

💻 使用示例

基础用法

以下代码展示了如何使用该模型进行语音识别：

from transformers import AutoTokenizer, Wav2Vec2ForCTC
import torch
import torchaudio

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common-Voice_plus_TTS-Dataset-russian")
model = Wav2Vec2ForCTC.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common-Voice_plus_TTS-Dataset-russian")

# 加载音频文件
audio_file = "your_audio_file.wav"
waveform, sample_rate = torchaudio.load(audio_file)

# 重采样到模型所需的采样率（通常为16000Hz）
resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
waveform = resampler(waveform)

# 进行语音识别
input_values = tokenizer(waveform.squeeze().numpy(), return_tensors="pt").input_values
with torch.no_grad():
    logits = model(input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = tokenizer.decode(predicted_ids[0])

print("识别结果:", transcription)

高级用法

使用Common Voice数据集进行测试

from datasets import load_dataset
import torchaudio
import re
from jiwer import wer

# 加载Common Voice数据集
dataset = load_dataset("common_voice", "pt", split="test", data_dir="./cv-corpus-6.1-2020-12-11")

# 定义重采样器
resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)

# 定义字符过滤正则表达式
chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"]'

# 定义映射函数，将音频文件转换为数组
def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("â€™", "'")
    return batch

# 对数据集进行映射
ds = dataset.map(map_to_array)

# 定义预测函数（这里假设map_to_pred函数已定义）
def map_to_pred(batch):
    # 这里需要实现具体的预测逻辑
    input_values = tokenizer(batch["speech"], return_tensors="pt").input_values
    with torch.no_grad():
        logits = model(input_values).logits
    predicted_ids = torch.argmax(logits, dim=-1)
    batch["predicted"] = tokenizer.decode(predicted_ids[0])
    return batch

# 进行预测
result = ds.map(map_to_pred, batched=True, batch_size=1, remove_columns=list(ds.features.keys()))

# 计算字错率（WER）
print(wer.compute(predictions=result["predicted"], references=result["target"]))