S

Segmentation 3.0

由 fatymatariq 开发
这是一个用于音频分割的模型,能够检测说话人变化、语音活动及重叠语音,适用于多说话人场景的音频分析。
下载量 1,228
发布时间 : 11/21/2024
模型介绍
内容详情
替代品

模型简介

该模型处理10秒单声道音频片段,输出包含7个类别的说话人日志矩阵,支持非语音、单个说话人及多个说话人重叠的检测。

模型特点

幂集多类编码
支持7种说话人状态的分类,包括非语音、单个说话人及多个说话人重叠场景。
高精度分割
在多种数据集上训练,能够准确检测说话人变化和语音活动。
多数据集训练
结合AISHELL、AliMeeting、AMI等多个数据集训练,具有广泛适用性。

模型能力

说话人日志
语音活动检测
重叠语音检测
说话人变化检测

使用案例

会议记录
多说话人会议记录
自动分割会议录音中的不同说话人,便于后续转录和分析。
提高会议记录的准确性和效率。
语音分析
重叠语音检测
检测音频中的重叠语音部分,适用于对话分析和语音增强。
提升语音处理的精度。