HumAware-VAD开源模型 - 精准区分哼唱与真实语音的语音活动检测工具

首页

Humaware VAD

由 CuriousMonkey7 开发

基于Silero-VAD微调的哼唱感知语音活动检测模型，专门用于区分哼唱与真实语音

语音识别英语开源协议:MIT #哼唱识别优化 #混合音频VAD #实时语音分割

下载量 434

发布时间 : 3/6/2025

模型简介

HumAware-VAD通过使用自定义数据集微调Silero-VAD模型，提升在哼唱存在时的语音检测准确率，减少哼唱被误判为语音的情况。

模型特点

哼唱感知

专门针对哼唱与真实语音的区分进行优化，减少假阳性

实时推理

保持Silero-VAD的实时推理能力

抗噪声优化

在混合音频中更准确地分割语音，提升抗噪声能力

模型能力

语音活动检测

哼唱识别

音频分割

使用案例

语音处理

自动语音识别预处理

在ASR系统中更准确地分割语音片段

减少哼唱导致的误识别

语音通信过滤

在通话或语音通信中过滤非语音内容

提高通话质量

音频分析

音乐与人声分离

在混合音频中区分人声与背景音乐

更准确的音频成分分析

🚀 [WIP]HumAware-VAD：支持哼唱检测的语音活动检测

HumAware-VAD 是一款经过微调的模型，它基于 Silero-VAD 进行训练，能够有效区分 哼唱声与实际语音。常见的语音活动检测（VAD）模型，包括 Silero-VAD，常常会将哼唱误判为语音，导致语音分割不准确。而 HumAware-VAD 通过使用自定义数据集（HumSpeechBlend）进行训练，显著提高了在存在哼唱声情况下的语音检测准确性。

🚀 快速开始

🔹 安装依赖

pip install torch torchaudio

🔹 加载模型

import torch

def load_humaware_vad(model_path="humaware_vad.jit"):
    model = torch.jit.load(model_path)
    model.eval()
    return model

vad_model = load_humaware_vad()

🔹 运行推理

import torchaudio

waveform, sample_rate = torchaudio.load("data/0000.wav")
out = vad_model(waveform)
print("VAD Output:", out)

✨ 主要特性

降低误检率：减少将哼唱误判为语音的情况，降低误检率。
提高分割精度：在实际应用中，提升语音分割的准确性。
适应复杂场景：在包含音乐、背景噪音和人声的复杂场景中，提升 VAD 性能。

📦 安装指南

🔹 安装依赖

pip install torch torchaudio

💻 使用示例

🔹 基础用法

import torch

def load_humaware_vad(model_path="humaware_vad.jit"):
    model = torch.jit.load(model_path)
    model.eval()
    return model

vad_model = load_humaware_vad()

🔹 高级用法

import torchaudio

waveform, sample_rate = torchaudio.load("data/0000.wav")
out = vad_model(waveform)
print("VAD Output:", out)

📚 详细文档

模型详情

属性	详情
基础模型	Silero-VAD
微调数据集	HumSpeechBlend
格式	JIT (TorchScript)
框架	PyTorch
推理速度	实时

📄 许可证

本项目采用 MIT 许可证。

📄 引用

如果您使用了此模型，请按照以下格式进行引用：

@model{HumAwareVAD2025,
  author = {Sourabh Saini},
  title = {HumAware-VAD: Humming-Aware Voice Activity Detection},
  year = {2025},
  publisher = {Hugging Face},
  url = {https://huggingface.co/CuriousMonkey7/HumAware-VAD}
}