P

Pyannote Segmentation 30

由 collinbarnwell 开发
这是一个用于音频处理的说话人分割模型,能够检测语音活动、重叠语音和多个说话人。
下载量 873
发布时间 : 2/9/2024
模型介绍
内容详情
替代品

模型简介

该模型处理16kHz采样的10秒单声道音频,输出包含7个类别的说话人分割结果,支持语音活动检测和重叠语音检测。

模型特点

多说话人检测
能够同时检测最多3个说话人及其重叠部分。
短时处理
专门优化用于处理10秒音频片段的分割任务。
多任务输出
同时支持语音活动检测和重叠语音检测任务。

模型能力

说话人分割
语音活动检测
重叠语音检测
多说话人识别

使用案例

会议记录
会议发言人识别
自动识别会议录音中的不同发言人及其发言时段
提高会议记录效率,自动生成发言记录
语音分析
重叠语音检测
检测对话中多人同时说话的情况
改善语音识别系统在重叠语音场景下的表现