F

Frame VAD Multilingual MarbleNet V2.0

由 nvidia 开发
轻量级多语言语音活动检测模型,支持中英法德俄西六种语言,参数量仅91.5K,适用于实时语音处理场景
下载量 75
发布时间 : 5/8/2025
模型介绍
内容详情
替代品

模型简介

用于语音活动检测(VAD)的卷积神经网络,作为语音识别和说话人日志系统的前置模块,可输出每20毫秒音频帧的语音概率

模型特点

轻量化设计
仅91.5K参数,适合实时应用场景
强抗误报能力
通过噪声扰动和音量调整训练降低误报率
多语言支持
支持中文、英语、法语、德语、俄语、西班牙语六种语言
帧级检测
每20毫秒音频帧输出语音概率

模型能力

语音活动检测
实时音频处理
多语言语音识别预处理

使用案例

语音处理
语音识别前置处理
作为ASR系统的语音/非语音分段模块
提高语音识别系统效率
说话人日志系统
用于会议录音的说话人分段标记
VoxConverse-test集AUC达96.65
智能设备
语音唤醒检测
智能音箱等设备的低功耗语音检测
轻量化设计适合边缘设备部署