S

Segmentation 3.0

由 pyannote 开发
这是一个基于幂集编码的说话人分割模型,能够处理10秒音频片段并识别多个说话人及其重叠语音。
下载量 12.6M
发布时间 : 9/22/2023
模型介绍
内容详情
替代品

模型简介

该模型用于音频中的说话人分割、语音活动检测和重叠语音检测,支持最多3个说话人的识别及其组合。

模型特点

幂集编码
使用7个类别编码说话人组合,包括单个说话人和重叠说话人情况
多任务处理
同时支持说话人分割、语音活动检测和重叠语音检测
高效处理
专为10秒音频片段优化,适合实时或批量处理

模型能力

说话人识别
语音活动检测
重叠语音检测
多说话人场景处理

使用案例

会议记录
会议发言者识别
自动识别会议录音中的不同发言者及其发言时间
准确分割各发言者语音并标记重叠部分
语音分析
语音活动检测
检测音频中的语音片段与非语音片段
精确识别语音区域并过滤静音部分
重叠语音分析
识别多人同时说话的情况
准确标记重叠语音区域