wav2vec2-large-ru-golos-with-lm开源俄语语音识别模型 - 免费部署，准确识别俄语语音

首页

Wav2vec2 Large Ru Golos With Lm

由 bond005 开发

这是一个基于facebook/wav2vec2-large-xlsr-53微调的俄语语音识别模型，使用Sberdevices Golos数据集训练，并集成了2-gram语言模型以提高识别准确率。

语音识别

Transformers

其他开源协议:Apache-2.0 #俄语语音识别 #低词错误率 #远场语音处理

下载量 434

发布时间 : 9/26/2022

模型简介

该模型专门用于俄语语音识别任务，支持16kHz采样率的音频输入，在多个俄语测试集上表现出色。

模型特点

集成语言模型

集成了基于俄语文本语料库构建的2-gram语言模型，显著提高了识别准确率

数据增强训练

训练时应用了音高变换、声音加速/减速、混响等音频增强技术，提高了模型鲁棒性

多数据集评估

在Sberdevices Golos、Common Voice俄语等多个测试集上进行了全面评估

模型能力

俄语语音识别

音频转录

语音转文本

使用案例

语音助手

智能家居控制

用于俄语智能家居设备的语音指令识别

在远场测试集上CER为5.128%

语音转录

会议记录转录

将俄语会议录音自动转录为文字

在众包测试集上WER为6.883%

🚀 Wav2Vec2-Large-Ru-Golos-With-LM

Wav2Vec2-Large-Ru-Golos-With-LM 是一款用于自动语音识别的模型，它基于预训练模型进行微调，结合了语言模型，能有效提升俄语语音识别的准确性，适用于多种俄语语音识别场景。

🚀 快速开始

当使用此模型时，请确保您的语音输入采样率为 16kHz。您可以通过编写自己的推理脚本来使用该模型：

基础用法

import os
import warnings

import librosa
import nltk
import numpy as np

import torch
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2ProcessorWithLM

MODEL_ID = "bond005/wav2vec2-large-ru-golos-with-lm"
DATASET_ID = "bond005/sberdevices_golos_10h_crowd"
SAMPLES = 30

nltk.download('punkt')
num_processes = max(1, os.cpu_count())

test_dataset = load_dataset(DATASET_ID, split=f"test[:{SAMPLES}]")
processor = Wav2Vec2ProcessorWithLM.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array = batch["audio"]["array"]
    batch["speech"] = np.asarray(speech_array, dtype=np.float32)
    return batch

removed_columns = set(test_dataset.column_names)
removed_columns -= {'transcription', 'speech'}
removed_columns = sorted(list(removed_columns))
with warnings.catch_warnings():
    warnings.simplefilter("ignore")
    test_dataset = test_dataset.map(
        speech_file_to_array_fn,
        num_proc=num_processes,
        remove_columns=removed_columns
    )

inputs = processor(test_dataset["speech"], sampling_rate=16_000,
                   return_tensors="pt", padding=True)
with torch.no_grad():
    logits = model(inputs.input_values,
                   attention_mask=inputs.attention_mask).logits
predicted_sentences = processor.batch_decode(
    logits=logits.numpy(),
    num_processes=num_processes
).text

with warnings.catch_warnings():
    warnings.simplefilter("ignore")
    for i, predicted_sentence in enumerate(predicted_sentences):
        print("-" * 100)
        print("Reference:", test_dataset[i]["transcription"])
        print("Prediction:", predicted_sentence)

示例输出

----------------------------------------------------------------------------------------------------
Reference:   шестьдесят тысяч тенге сколько будет стоить
Prediction:  шестьдесят тысяч тенге сколько будет стоить
----------------------------------------------------------------------------------------------------
Reference:   покажи мне на смотрешке телеканал синергия тв
Prediction:  покажи мне на смотрешке телеканал синергия тв
----------------------------------------------------------------------------------------------------
Reference:   заказать яблоки зеленые
Prediction:  заказать яблоки зеленые
----------------------------------------------------------------------------------------------------
Reference:   алиса закажи килограммовый торт графские развалины
Prediction:  алиса закажи килограммовый торт графские развалины
----------------------------------------------------------------------------------------------------
Reference:   ищи телеканал про бизнес на тиви
Prediction:  ищи телеканал про бизнес на тиви
----------------------------------------------------------------------------------------------------
Reference:   михаила мурадяна
Prediction:  михаила мурадяна
----------------------------------------------------------------------------------------------------
Reference:   любовницы две тысячи тринадцать пятнадцатый сезон
Prediction:  любовница две тысячи тринадцать пятнадцатый сезон
----------------------------------------------------------------------------------------------------
Reference:   найди боевики
Prediction:  найди боевики
----------------------------------------------------------------------------------------------------
Reference:   гетто сезон три
Prediction:  гета сезон три
----------------------------------------------------------------------------------------------------
Reference:   хочу посмотреть ростов папа на телевизоре
Prediction:  хочу посмотреть ростоу папа на телевизоре
----------------------------------------------------------------------------------------------------
Reference:   сбер какое твое самое ненавистное занятие
Prediction:  сбер какое твое самое ненавистное занятие
----------------------------------------------------------------------------------------------------
Reference:   афина чем платят у китайцев
Prediction:  афина чем платят у китайцев
----------------------------------------------------------------------------------------------------
Reference:   джой как работает досрочное погашение кредита
Prediction:  джой как работает досрочное погашение кредита
----------------------------------------------------------------------------------------------------
Reference:   у тебя найдется люк кейдж
Prediction:  у тебя найдется люк кейдж
----------------------------------------------------------------------------------------------------
Reference:   у тебя будет лучшая часть пинк
Prediction:  у тебя будет лучшая часть пинк
----------------------------------------------------------------------------------------------------
Reference:   пожалуйста пополните мне счет
Prediction:  пожалуйста пополните мне счет
----------------------------------------------------------------------------------------------------
Reference:   анне павловне шабуровой
Prediction:  анне павловне шабуровой
----------------------------------------------------------------------------------------------------
Reference:   врубай на смотрешке муз тв
Prediction:  врубай на смотрешке муз тиви
----------------------------------------------------------------------------------------------------
Reference:   найди на смотрешке лдпр тв
Prediction:  найди на смотрешке лдпр тв
----------------------------------------------------------------------------------------------------
Reference:   сбер мне нужен педикюр забей мне место
Prediction:  сбер мне нужен педикюр за обеление место
----------------------------------------------------------------------------------------------------
Reference:   галины афанасьевны
Prediction:  галины афанасьевны
----------------------------------------------------------------------------------------------------
Reference:   сколько стоимость обмена китайского юаня на российский рубль
Prediction:  сколько стоимость обмена китайского юаня на российский рубль
----------------------------------------------------------------------------------------------------
Reference:   обмани меня сезон восемь часть тринадцать
Prediction:  обмани меня сезон восемь часть тринадцать
----------------------------------------------------------------------------------------------------
Reference:   включи канал футбол эйч ди
Prediction:  включи канал футбол эйч ди
----------------------------------------------------------------------------------------------------
Reference:   поп звезда не переставай не останавливайся найти
Prediction:  поп звезда переставая не останавливайся найти
----------------------------------------------------------------------------------------------------
Reference:   салют самый популярный фильм люка бессона
Prediction:  салют самый популярный фильм люка бессона
----------------------------------------------------------------------------------------------------
Reference:   татьяна зиганшина
Prediction:  татьяна зигантшина
----------------------------------------------------------------------------------------------------
Reference:   джой когда перестало существовать хеттское царство
Prediction:  джой когда перестало существовать хеттское царство
----------------------------------------------------------------------------------------------------
Reference:   олег яковлев
Prediction:  олег яковлев
----------------------------------------------------------------------------------------------------
Reference:   посоветуй мне шестая часть как избежать наказания за убийство
Prediction:  посоветуй мне шестая часть как избежать наказания за убийство

此脚本的 Google Colab 版本也可以在这里获取。

✨ 主要特性

模型基础：Wav2Vec2 模型基于 facebook/wav2vec2-large-xlsr-53，并使用 Sberdevices Golos 数据集进行俄语微调，同时应用了诸如音高变换、声音加速/减速、混响等音频增强技术。
语言模型：2-gram 语言模型基于从三个开源来源获得的俄语文本语料库构建：
- Taiga 的随机 10% 子集
- 俄罗斯维基百科
- 俄罗斯维基新闻

📚 详细文档

评估

该模型在 SberDevices Golos、Common Voice 6.0（俄语部分）和 Russian Librispeech 的测试子集上进行了评估，但仅在 SberDevices Golos 的训练子集上进行了训练。您可以在作者的 Kaggle 页面 https://www.kaggle.com/code/bond005/wav2vec2-ru-lm-eval 上查看该模型在其他数据集（包括 Russian Librispeech 和 SOVA RuDevices）上的评估脚本。

引用

如果您想引用此模型，可以使用以下 BibTeX 格式：

@misc{bondarenko2022wav2vec2-large-ru-golos,
  title={XLSR Wav2Vec2 Russian with 2-gram Language Model by Ivan Bondarenko},
  author={Bondarenko, Ivan},
  publisher={Hugging Face},
  journal={Hugging Face Hub},
  howpublished={\url{https://huggingface.co/bond005/wav2vec2-large-ru-golos-with-lm}},
  year={2022}
}

📄 许可证

本项目采用 Apache-2.0 许可证。

📦 数据集与指标

属性	详情
数据集	SberDevices/Golos、common_voice、bond005/rulibrispeech、bond005/sova_rudevices、dangrebenkin/voxforge-ru-dataset
评估指标	字错率（wer）、字符错误率（cer）
标签	音频、自动语音识别、语音、common_voice、SberDevices/Golos、bond005/rulibrispeech、bond005/sova_rudevices、dangrebenkin/voxforge-ru-dataset

📊 模型评估结果

任务名称	数据集名称	数据集类型	测试字错率（WER）	测试字符错误率（CER）
语音识别	Sberdevices Golos (crowd)	SberDevices/Golos	6.883	1.637
语音识别	Sberdevices Golos (farfield)	SberDevices/Golos	15.044	5.128
自动语音识别	Common Voice ru	common_voice	12.115	2.980
自动语音识别	Russian Librispeech	bond005/rulibrispeech	15.736	3.573
自动语音识别	Sova RuDevices	bond005/sova_rudevices	20.652	7.287
自动语音识别	Voxforge Ru	dangrebenkin/voxforge-ru-dataset	19.079	5.864