wav2vec2-large-xlsr-korean开源模型 - 精准实现韩语自动语音识别

首页

Wav2vec2 Large Xlsr Korean

由 kresnik 开发

基于Wav2Vec2 XLSR架构的韩语自动语音识别(ASR)模型，在Zeroth韩语数据集上表现出色

语音识别

Transformers

韩语开源协议:Apache-2.0 #韩语语音识别 #低词错误率 #高精度ASR

下载量 1.7M

发布时间 : 3/2/2022

模型简介

该模型专门用于韩语语音识别任务，能够将韩语语音转换为文本，具有高准确率和低错误率的特点

模型特点

高准确率

在Zeroth韩语测试集上达到4.74%的词错误率(WER)和1.78%的字错误率(CER)

大模型架构

基于Wav2Vec2 XLSR的大规模架构，适合韩语语音识别任务

预训练模型

提供预训练好的模型权重，可直接用于推理或微调

模型能力

韩语语音识别

音频转文本

自动语音转录

使用案例

语音转录

韩语会议记录

将韩语会议录音自动转换为文字记录

准确率高达95.26%(WER 4.74%)

语音助手

用于韩语语音助手应用的语音识别模块

教育

韩语学习应用

帮助韩语学习者检查发音准确性

🚀 Wav2Vec2 XLSR Korean模型

本项目的Wav2Vec2 XLSR Korean模型用于韩语自动语音识别，可有效处理语音数据，在Zeroth Korean语料库上有良好表现。

🚀 快速开始

你可以通过下面的Google Colab笔记本（韩语）来快速体验模型在Zeroth-Korean ASR语料库上的评估过程： Google colab notebook(Korean)

💻 使用示例

基础用法

from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
from datasets import load_dataset
import soundfile as sf
import torch
from jiwer import wer

processor = Wav2Vec2Processor.from_pretrained("kresnik/wav2vec2-large-xlsr-korean")

model = Wav2Vec2ForCTC.from_pretrained("kresnik/wav2vec2-large-xlsr-korean").to('cuda')

ds = load_dataset("kresnik/zeroth_korean", "clean")

test_ds = ds['test']

def map_to_array(batch):
    speech, _ = sf.read(batch["file"])
    batch["speech"] = speech
    return batch

test_ds = test_ds.map(map_to_array)

def map_to_pred(batch):
    inputs = processor(batch["speech"], sampling_rate=16000, return_tensors="pt", padding="longest")
    input_values = inputs.input_values.to("cuda")
    
    with torch.no_grad():
        logits = model(input_values).logits

    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

result = test_ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=["speech"])

print("WER:", wer(result["text"], result["transcription"]))