S

Speaker Diarization 2.5

由 Willy030125 开发
基于pyannote/speaker-diarization-3.0修改的说话人分割模型,使用speechbrain/spkrec-ecapa-voxceleb进行说话人嵌入,在某些测试中表现更优
下载量 26
发布时间 : 3/24/2025
模型介绍
内容详情
替代品

模型简介

用于音频中的说话人分割和变更检测,支持自动语音活动检测、重叠语音检测和说话人数量自动检测

模型特点

自动说话人数量检测
无需手动指定说话人数量,模型可自动检测
改进的说话人嵌入
使用speechbrain/spkrec-ecapa-voxceleb进行说话人嵌入,在某些场景下表现更优
全自动处理
无需手动语音活动检测或调整超参数
GPU加速支持
支持GPU处理,实时因子约为2.5%

模型能力

说话人分割
说话人变更检测
语音活动检测
重叠语音检测
自动说话人数量估计

使用案例

会议记录
会议记录分析
自动识别会议中不同发言人的语音片段
DER 12.3% (AISHELL-4数据集)
语音转写
自动语音识别预处理
为ASR系统提供说话人分割信息
媒体分析
广播节目分析
分析广播节目中不同主持人和嘉宾的发言情况
DER 7.8% (REPERE数据集)