S

Speaker Diarization 3.1

由 tensorlake 开发
一个用于说话人分割和嵌入的音频处理模型,支持自动语音活动检测和重叠语音检测。
下载量 393
发布时间 : 7/25/2024
模型介绍
内容详情
替代品

模型简介

该模型接收16kHz采样的单声道音频,输出说话人分割结果,支持自动下混和重采样,无需手动语音活动检测或说话人数量指定。

模型特点

纯PyTorch实现
移除了有问题的onnxruntime使用,简化部署并可能加速推理。
自动处理
自动处理立体声/多声道音频和不同采样率,无需预处理。
说话人数量控制
支持指定说话人数量或设置上下限。
进度监控
可通过钩子监控管道处理进度。

模型能力

说话人分割
语音活动检测
重叠语音检测
说话人变化检测
自动语音识别辅助

使用案例

会议记录
会议记录分析
自动识别会议中不同发言人的语音片段
生成带时间戳的说话人分割结果
媒体制作
播客/访谈分析
自动分割播客或访谈中的不同说话人
生成RTTM格式的分割文件
语音分析
语音活动检测
检测音频中的语音活动区域
准确识别语音和非语音片段