S

Speaker Diarization V1

由 objects76 开发
这是一个基于幂集多类交叉熵损失的说话人分割模型,能够处理10秒单声道音频,输出说话人分割结果。
下载量 13
发布时间 : 9/9/2024
模型介绍
内容详情
替代品

模型简介

该模型主要用于音频中的说话人分割、语音活动检测和重叠语音检测,支持多说话人场景下的语音分析。

模型特点

幂集多类编码
使用幂集多类交叉熵损失进行训练,能够同时处理多个说话人的语音分割。
多说话人支持
能够识别最多3个说话人及其重叠语音情况。
集成多种数据集
训练数据整合了AISHELL、AliMeeting、AMI等多个知名数据集。

模型能力

说话人分割
语音活动检测
重叠语音检测
多说话人识别

使用案例

语音分析
会议记录分析
自动识别会议录音中不同发言人的语音段落
提高会议记录效率,自动区分发言人
语音转写预处理
在语音识别前进行说话人分割
提高转写准确性,实现说话人标注
音频处理
重叠语音检测
识别音频中多人同时说话的部分
帮助分析对话交互模式