P

Pyannote Speaker Diarization Endpoint

由 philschmid 开发
基于pyannote.audio 2.0的说话人分割模型,用于自动检测音频中的说话人变化和语音活动
下载量 51
发布时间 : 10/7/2022
模型介绍
内容详情
替代品

模型简介

该模型是一个端到端的说话人分割系统,能够自动检测音频中的说话人变化、语音活动以及重叠语音,无需手动干预即可完成说话人分割任务。

模型特点

全自动处理
无需手动语音活动检测或指定说话人数量即可完成分割
重叠语音检测
能够检测并处理说话人重叠的情况
说话人数量自适应
可自动确定说话人数量,也支持手动指定
高性能
在多个基准测试数据集上表现优异

模型能力

说话人分割
语音活动检测
重叠语音检测
说话人变化检测
自动说话人计数

使用案例

会议记录
会议记录分割
自动分割会议录音中的不同发言人
在AMI数据集上达到18.21%的DER
电话录音分析
客服电话分析
自动区分客服和客户的语音片段
在CALLHOME数据集上达到30.24%的DER
媒体内容分析
访谈节目分析
自动识别访谈节目中的主持人和嘉宾
在VoxConverse数据集上达到12.76%的DER