mms-300m-1130-forced-aligner开源工具 - 支持多语言的文本音频强制对齐利器

首页

Mms 300m 1130 Forced Aligner

由 MahmoudAshraf 开发

基于Hugging Face预训练模型的文本与音频强制对齐工具，支持多种语言，内存效率高

语音识别

Transformers

支持多种语言#多语言语音对齐 #低内存消耗 #音频文本同步

下载量 2.5M

发布时间 : 5/2/2024

模型简介

该模型利用Hugging Face的CTC预训练模型实现音频与文本的强制对齐功能，相比传统方法显著降低内存消耗。适用于语音识别、语音标注等场景。

模型特点

高效内存使用

相比TorchAudio的强制对齐API，显著降低了内存消耗

多语言支持

支持超过100种语言的强制对齐

基于wav2vec2架构

采用先进的wav2vec2模型架构，确保对齐精度

简单易用

提供清晰的Python API接口，便于集成到现有工作流

模型能力

音频与文本强制对齐

语音识别

语音标注

多语言处理

使用案例

语音处理

字幕生成

为视频内容生成精确的时间对齐字幕

提高字幕与语音的同步精度

语音标注

为语音数据集生成精确的单词级时间标注

提升语音识别模型的训练数据质量

语言学研究

语音分析

分析不同语言的语音特征和发音模式

支持多语言语音学研究

🚀 基于Hugging Face CTC模型的强制对齐工具

本Python包提供了一种高效的方法，利用Hugging Face的预训练模型在文本和音频之间执行强制对齐。此外，它还采用了改进的实现方式，相比TorchAudio的强制对齐API，能显著减少内存使用。

这里上传的模型检查点是将基于强制对齐数据集训练的MMS - 300M检查点从torchaudio转换为HF Transformers格式的版本。

🚀 快速开始

本工具可帮助你高效地完成文本和音频的强制对齐任务，减少内存消耗。

📦 安装指南

你可以使用以下命令安装本工具：

pip install git+https://github.com/MahmoudAshraf97/ctc-forced-aligner.git

💻 使用示例

基础用法

import torch
from ctc_forced_aligner import (
    load_audio,
    load_alignment_model,
    generate_emissions,
    preprocess_text,
    get_alignments,
    get_spans,
    postprocess_results,
)

audio_path = "your/audio/path"
text_path = "your/text/path"
language = "iso" # ISO-639-3 Language code
device = "cuda" if torch.cuda.is_available() else "cpu"
batch_size = 16


alignment_model, alignment_tokenizer = load_alignment_model(
    device,
    dtype=torch.float16 if device == "cuda" else torch.float32,
)

audio_waveform = load_audio(audio_path, alignment_model.dtype, alignment_model.device)


with open(text_path, "r") as f:
    lines = f.readlines()
text = "".join(line for line in lines).replace("\n", " ").strip()

emissions, stride = generate_emissions(
    alignment_model, audio_waveform, batch_size=batch_size
)

tokens_starred, text_starred = preprocess_text(
    text,
    romanize=True,
    language=language,
)

segments, scores, blank_token = get_alignments(
    emissions,
    tokens_starred,
    alignment_tokenizer,
)

spans = get_spans(tokens_starred, segments, blank_token)

word_timestamps = postprocess_results(text_starred, spans, stride, scores)

📄 许可证

本项目采用CC - BY - NC - 4.0许可证。

🔍 详细信息

属性	详情
支持语言	ab、af、ak等众多语言
模型类型	基于Hugging Face CTC的强制对齐模型
训练数据	基于强制对齐数据集训练
标签	mms、wav2vec2、audio、voice、speech、forced - alignment
任务类型	自动语音识别
许可证	CC - BY - NC - 4.0