S

Speaker Diarization Optimized

由 G-Root 开发
Pyannote.audio的说话人分割管道,用于自动检测音频中的说话人变化和分割语音片段
下载量 349
发布时间 : 1/25/2024
模型介绍
内容详情
替代品

模型简介

这是一个用于说话人分割的音频处理管道,能够自动检测音频中的说话人变化、识别重叠语音,并输出说话人分割结果。它支持16kHz采样的单声道音频,可自动处理立体声/多声道音频的降混和重采样。

模型特点

纯PyTorch实现
移除了有问题的onnxruntime依赖,完全使用PyTorch运行,简化部署并可能加速推理
自动处理
完全自动化处理,无需手动语音活动检测或指定说话人数量
多格式支持
支持输出RTTM格式的分割结果,方便后续处理和分析
GPU加速
支持在GPU上运行以加速处理

模型能力

说话人分割
语音活动检测
重叠语音检测
自动说话人计数
音频降混处理
音频重采样

使用案例

会议记录
会议记录分割
自动分割会议录音中的不同发言人
提高会议记录效率,减少人工转录时间
媒体分析
广播节目分析
分析广播节目中的主持人切换和嘉宾发言
帮助内容分析人员快速了解节目结构
语音研究
语音数据库标注
自动为语音数据库添加说话人标签
大幅减少人工标注工作量