wav2vec2-large-slavic-parlaspeech-hr开源系统 - 助力克罗地亚议会语音自动识别

首页

Wav2vec2 Large Slavic Parlaspeech Hr

由 classla 开发

这是一个基于斯拉夫语系预训练模型的克罗地亚语自动语音识别系统，专门针对议会语音场景优化

语音识别

Transformers

其他#克罗地亚语语音识别 #议会场景优化 #斯拉夫语系预训练

下载量 5,768

发布时间 : 4/28/2022

模型简介

该模型基于facebook/wav2vec2-large-slavic-voxpopuli-v2预训练模型，使用300小时的克罗地亚议会语音数据集ParlaSpeech-HR v1.0微调而成，专门用于克罗地亚议会场景的语音识别任务

模型特点

斯拉夫语系预训练

基于斯拉夫语系预训练模型微调，对克罗地亚语有更好的适应性

议会语音优化

专门针对克罗地亚议会场景的语音特点进行优化

高性能指标

在测试集上达到2.22%的字符错误率和6.79%的词错误率

模型能力

克罗地亚语语音识别

议会场景语音转写

长音频处理

使用案例

政府机构

议会会议记录

自动转写克罗地亚议会会议内容

高效生成会议文字记录，准确率达93%以上

学术研究

政治语言分析

为政治学家提供议会发言的文本数据

支持大规模政治话语分析研究

🚀 wav2vec2-large-slavic-parlaspeech-hr

该模型用于克罗地亚语的自动语音识别（ASR），基于 facebook/wav2vec2-large-slavic-voxpopuli-v2 模型，并使用来自克罗地亚议会 ASR 数据集 ParlaSpeech-HR v1.0 的 300 小时录音和文字转录进行了微调。

如果您使用此模型，请引用以下论文：

Nikola Ljubešić, Danijel Koržinek, Peter Rupnik, Ivo - Pavao Jazbec. ParlaSpeech - HR -- a freely available ASR dataset for Croatian bootstrapped from the ParlaMint corpus. http://www.lrec-conf.org/proceedings/lrec2022/workshops/ParlaCLARINIII/pdf/2022.parlaclariniii-1.16.pdf

✨ 主要特性

基于成熟的 facebook/wav2vec2-large-slavic-voxpopuli-v2 模型进行微调，适用于克罗地亚语的自动语音识别任务。
利用了 300 小时的克罗地亚议会录音及转录数据进行训练，具有较好的性能表现。

📦 安装指南

文档中未提及具体安装步骤，若有相关需求，可参考 transformers 库的安装方式。

💻 使用示例

基础用法

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
import soundfile as sf
import torch
import os
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
# load model and tokenizer
processor = Wav2Vec2Processor.from_pretrained(
    "classla/wav2vec2-large-slavic-parlaspeech-hr")
model = Wav2Vec2ForCTC.from_pretrained("classla/wav2vec2-large-slavic-parlaspeech-hr")
# download the example wav files:
os.system("wget https://huggingface.co/classla/wav2vec2-large-slavic-parlaspeech-hr/raw/main/00020570a.flac.wav")
# read the wav file 
speech, sample_rate = sf.read("00020570a.flac.wav")
input_values = processor(speech, sampling_rate=sample_rate, return_tensors="pt").input_values.to(device)
# remove the raw wav file
os.system("rm 00020570a.flac.wav")
# retrieve logits
logits = model.to(device)(input_values).logits
# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.decode(predicted_ids[0]).lower()
# transcription: 'veliki broj poslovnih subjekata posluje sa minusom velik dio'