S

Speaker Diarization 3.1

由 pyannote 开发
一个用于说话人分割的音频处理模型,能够自动检测和分割音频中的不同说话人。
下载量 11.7M
发布时间 : 11/16/2023
模型介绍
内容详情
替代品

模型简介

该模型接收16kHz采样的单声道音频,输出说话人分割结果。支持自动降混和重采样,无需手动语音活动检测或说话人数量指定。

模型特点

纯PyTorch实现
移除了有问题的onnxruntime使用,简化部署并可能加速推理。
自动处理
自动处理立体声/多声道音频和不同采样率,无需手动预处理。
说话人数量控制
可指定说话人数量或提供上下限,提高分割准确性。
进度监控
支持通过钩子监控处理进度。

模型能力

说话人分割
说话人变更检测
语音活动检测
重叠语音检测
自动语音识别辅助

使用案例

会议记录
会议记录分割
自动识别会议录音中不同发言人的时间段
在AISHELL-4数据集上达到12.2%的分割错误率
媒体分析
广播节目分析
分析广播节目中不同主持人和嘉宾的发言时间分布
在REPERE数据集上达到7.8%的分割错误率
语音转写
多说话人转写辅助
为自动语音识别系统提供说话人分割信息