开源wav2vec2 - bartpho模型，支持越南语自动语音识别与文本规范标记

首页

Wav2vec2 Bartpho

由 nguyenvulebinh 开发

这是一个支持越南语的自动语音识别模型，能够输出规范化文本、标记时间戳以及多说话人分段。

语音识别

Transformers

其他#越南语语音识别 #时间戳标记 #多说话人分段

下载量 472

发布时间 : 10/5/2023

模型简介

该模型基于wav2vec2和bartpho架构，专门用于越南语的自动语音识别任务，支持输出带时间戳的文本和多说话人分段。

模型特点

时间戳标记

能够为识别的文本标记精确的时间戳

多说话人分段

支持识别和分段不同说话人的语音

文本规范化

输出经过规范化的识别文本

模型能力

越南语语音识别

时间戳标记

多说话人分段

文本规范化输出

使用案例

语音转录

新闻转录

将越南语新闻广播转录为带时间戳的文本

示例输出中包含精确的时间标记和分段

会议记录

多说话人会议记录

自动识别会议中不同发言人的语音并分段

可区分不同说话人并标记发言时间

🚀 越南语自动语音识别序列到序列模型

这是一个越南语自动语音识别（ASR）的序列到序列模型。该模型支持输出规范化文本、标注时间戳以及多说话人分割等功能。

🚀 快速开始

安装依赖

# !pip install transformers, sentencepiece

代码示例

from transformers import SpeechEncoderDecoderModel
from transformers import AutoFeatureExtractor, AutoTokenizer, GenerationConfig
import torchaudio
import torch

model_path = 'nguyenvulebinh/wav2vec2-bartpho'
model = SpeechEncoderDecoderModel.from_pretrained(model_path).eval()
feature_extractor = AutoFeatureExtractor.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
if torch.cuda.is_available():
  model = model.cuda()


def decode_tokens(token_ids, skip_special_tokens=True, time_precision=0.02):
    timestamp_begin = tokenizer.vocab_size
    outputs = [[]]
    for token in token_ids:
        if token >= timestamp_begin:
            timestamp = f" |{(token - timestamp_begin) * time_precision:.2f}| "
            outputs.append(timestamp)
            outputs.append([])
        else:
            outputs[-1].append(token)
    outputs = [
        s if isinstance(s, str) else tokenizer.decode(s, skip_special_tokens=skip_special_tokens) for s in outputs
    ]
    return "".join(outputs).replace("< |", "<|").replace("| >", "|>")

def decode_wav(audio_wavs, asr_model, prefix=""):
  device = next(asr_model.parameters()).device
  input_values = feature_extractor.pad(
    [{"input_values": feature} for feature in audio_wavs],
    padding=True,
    max_length=None,
    pad_to_multiple_of=None,
    return_tensors="pt",
  )

  output_beam_ids = asr_model.generate(
    input_values['input_values'].to(device), 
    attention_mask=input_values['attention_mask'].to(device),
    decoder_input_ids=tokenizer.batch_encode_plus([prefix] * len(audio_wavs), return_tensors="pt")['input_ids'][..., :-1].to(device),
    generation_config=GenerationConfig(decoder_start_token_id=tokenizer.bos_token_id),
    max_length=250, 
    num_beams=25, 
    no_repeat_ngram_size=4, 
    num_return_sequences=1, 
    early_stopping=True,
    return_dict_in_generate=True,
    output_scores=True,
  )

  output_text = [decode_tokens(sequence) for sequence in output_beam_ids.sequences]

  return output_text


# https://huggingface.co/nguyenvulebinh/wav2vec2-bartpho/resolve/main/sample_news.wav
print(decode_wav([torchaudio.load('sample_news.wav')[0].squeeze()], model))

# <|0.00| Gia đình cho biết, nhiều lần đã từng gọi điện báo chính quyền và lực lượng an ninh địa phương nhưng đều không có tác dụng |7.00|>
# <|8.14| Không ai giúp đỡ được mình một chút nào cả, nên là lúc đó là lúc tuyệt vọng nhất, nó tra tấn mình cực kỳ khổ, gây cái tâm lý ức chế rất là nhiều, rất là lớn |19.02|>

📄 许可证

本项目采用CC BY-NC 4.0许可证。

📚 引用信息

本仓库借鉴了以下论文的思想。如果使用此模型来帮助产生已发表的研究成果或集成到其他软件中，请引用该论文。

@INPROCEEDINGS{10446589,
  author={Nguyen, Thai-Binh and Waibel, Alexander},
  booktitle={ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, 
  title={Synthetic Conversations Improve Multi-Talker ASR}, 
  year={2024},
  volume={},
  number={},
  pages={10461-10465},
  keywords={Systematics;Error analysis;Knowledge based systems;Oral communication;Signal processing;Data models;Acoustics;multi-talker;asr;synthetic conversation},
  doi={10.1109/ICASSP48485.2024.10446589}
}