P

Pyannote Segmentation

由 it-just-works 开发
这是一个基于幂集编码的说话人分割模型,能够处理10秒音频片段并识别多个说话人及其重叠情况。
下载量 771
发布时间 : 4/10/2025
模型介绍
内容详情
替代品

模型简介

该模型用于音频中的说话人分割,可检测最多3个说话人及其重叠情况,输出7种可能的说话人组合状态。

模型特点

幂集编码
使用独特的幂集编码方式处理多说话人场景,可同时识别单个说话人和重叠说话人
多任务支持
同一模型可用于说话人分割、语音活动检测和重叠语音检测
高效处理
专为10秒音频片段优化,适合实时或批量处理

模型能力

说话人分割
语音活动检测
重叠语音检测
多说话人识别

使用案例

会议记录
会议发言记录
自动识别会议中不同发言者及其发言时间
准确分割各发言者语音段
语音分析
重叠语音检测
检测对话中多人同时说话的情况
识别重叠语音段