S

Speaker Diarization 3.1

由 fatymatariq 开发
Pyannote音频说话人分割管道,用于自动检测和分割音频中的不同说话人
下载量 1,120
发布时间 : 11/21/2024
模型介绍
内容详情
替代品

模型简介

这是一个用于说话人分割的音频处理管道,能够自动检测音频中的不同说话人并进行分割,支持16kHz采样的单声道音频处理。

模型特点

纯PyTorch实现
移除了有问题的onnxruntime使用,说话人分割和嵌入均以纯PyTorch运行,简化部署并可能加速推理
自动音频处理
自动处理立体声/多声道音频的降混和不同采样率音频的重采样
说话人数量控制
支持指定说话人数量或设置说话人数量的上下限
全面基准测试
在多个公开数据集上进行了严格的基准测试,性能指标透明

模型能力

说话人分割
说话人变更检测
语音活动检测
重叠语音检测
自动音频重采样
多声道音频处理

使用案例

会议记录
会议发言记录
自动识别会议录音中不同发言人的时间段
生成带时间戳的说话人分割结果
媒体分析
访谈节目分析
分析访谈节目中主持人和嘉宾的发言时间分布
提供详细的说话人交替统计数据
语音处理
语音识别预处理
为自动语音识别系统提供说话人分割信息
提高ASR系统在多说话人场景下的准确性