wav2vec2-base-10k-voxpopuli-ft-fi开源模型 - 精准实现芬兰语自动语音识别

首页

Wav2vec2 Base 10k Voxpopuli Ft Fi

由 facebook 开发

基于Facebook Wav2Vec2基础模型，在VoxPopuli语料库的10K未标注子集上预训练，并在芬兰语转录数据上微调的自动语音识别模型。

语音识别

Transformers

其他#芬兰语语音识别 #多语言预训练 #低资源优化

下载量 24

发布时间 : 3/2/2022

模型简介

该模型是一个针对芬兰语的自动语音识别(ASR)系统，能够将芬兰语语音转换为文本。

模型特点

基于VoxPopuli语料库

使用VoxPopuli大规模多语言语音语料库进行预训练，确保模型具有强大的语音理解能力

芬兰语优化

专门针对芬兰语进行微调，提高了对芬兰语语音的识别准确率

端到端语音识别

直接从原始音频输入生成文本输出，简化了语音识别流程

模型能力

芬兰语语音识别

音频转文本

语音转录

使用案例

语音转写

会议记录自动化

将芬兰语会议录音自动转换为文字记录

语音助手

为芬兰语语音助手提供语音识别能力

无障碍技术

实时字幕生成

为芬兰语视频内容生成实时字幕

🚀 Wav2Vec2-Base-VoxPopuli-Finetuned

本项目基于 Facebook的Wav2Vec2 基础模型，该模型在 VoxPopuli语料库的10K无标签子集上进行预训练，并在芬兰语（fi）的转录数据上进行微调（更多信息请参考论文中的表1）。

🚀 快速开始

模型信息

本模型是基于Facebook的Wav2Vec2基础模型，在VoxPopuli语料库的特定子集上预训练，并在芬兰语转录数据上微调得到的。

论文信息

论文标题：VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation
论文作者：来自 Facebook AI 的 Changhan Wang, Morgane Riviere, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux

更多信息请参考官方网站。

💻 使用示例

基础用法

以下展示了如何在 Common Voice数据集的样本上使用该模型进行推理：

#!/usr/bin/env python3
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torchaudio
import torch

# resample audio

# load model & processor
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-fi")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-fi")

# load dataset
ds = load_dataset("common_voice", "fi", split="validation[:1%]")

# common voice does not match target sampling rate
common_voice_sample_rate = 48000
target_sample_rate = 16000

resampler = torchaudio.transforms.Resample(common_voice_sample_rate, target_sample_rate)


# define mapping fn to read in sound file and resample
def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    speech = resampler(speech)
    batch["speech"] = speech[0]
    return batch


# load all audio files
ds = ds.map(map_to_array)

# run inference on the first 5 data samples
inputs = processor(ds[:5]["speech"], sampling_rate=target_sample_rate, return_tensors="pt", padding=True)

# inference
logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, axis=-1)

print(processor.batch_decode(predicted_ids))

📄 许可证

本项目采用 cc-by-nc-4.0 许可证。

📦 模型详情

属性	详情
模型类型	基于Wav2Vec2的自动语音识别模型
训练数据	在VoxPopuli语料库的10K无标签子集上预训练，在芬兰语转录数据上微调
标签	音频、自动语音识别、VoxPopuli