pyannote-speaker-diarization-endpoint开源说话人分割模型 - 自动检测音频说话人变化与语音活动

首页

Pyannote Speaker Diarization Endpoint

由 philschmid 开发

基于pyannote.audio 2.0的说话人分割模型，用于自动检测音频中的说话人变化和语音活动

说话人处理开源协议:MIT #多说话人分割 #重叠语音检测 #自动说话人计数

下载量 51

发布时间 : 10/7/2022

模型简介

该模型是一个端到端的说话人分割系统，能够自动检测音频中的说话人变化、语音活动以及重叠语音，无需手动干预即可完成说话人分割任务。

模型特点

全自动处理

无需手动语音活动检测或指定说话人数量即可完成分割

重叠语音检测

能够检测并处理说话人重叠的情况

说话人数量自适应

可自动确定说话人数量，也支持手动指定

高性能

在多个基准测试数据集上表现优异

模型能力

说话人分割

语音活动检测

重叠语音检测

说话人变化检测

自动说话人计数

使用案例

会议记录

会议记录分割

自动分割会议录音中的不同发言人

在AMI数据集上达到18.21%的DER

电话录音分析

客服电话分析

自动区分客服和客户的语音片段

在CALLHOME数据集上达到30.24%的DER

媒体内容分析

访谈节目分析

自动识别访谈节目中的主持人和嘉宾

在VoxConverse数据集上达到12.76%的DER

🚀 说话人分割

本项目依赖于 pyannote.audio 2.0，安装说明请参考安装指南。

🚀 快速开始

# 从 Huggingface Hub 加载管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization@2022.07")

# 将管道应用于音频文件
diarization = pipeline("audio.wav")

# 使用 RTTM 格式将分割输出保存到磁盘
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

✨ 主要特性

支持指定说话人数量进行说话人分割。
可设置说话人数量的上下界。
可调整管道的超参数以实现不同的分割效果。

💻 使用示例

基础用法

# 从 Huggingface Hub 加载管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization@2022.07")

# 将管道应用于音频文件
diarization = pipeline("audio.wav")

# 使用 RTTM 格式将分割输出保存到磁盘
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

高级用法

指定说话人数量

如果事先知道说话人的数量，可以使用 num_speakers 选项：

diarization = pipeline("audio.wav", num_speakers=2)

指定说话人数量的上下界

也可以使用 min_speakers 和 max_speakers 选项提供说话人数量的下界和/或上界：

diarization = pipeline("audio.wav", min_speakers=2, max_speakers=5)

调整管道超参数

如果想尝试不同的效果，可以调整管道的各种超参数。例如，可以通过增加 segmentation_onset 阈值的值来使用更激进的语音活动检测：

hparams = pipeline.parameters(instantiated=True)
hparams["segmentation_onset"] += 0.1
pipeline.instantiate(hparams)

📚 详细文档

基准测试

实时因子

使用一块 Nvidia Tesla V100 SXM2 GPU（用于神经推理部分）和一块 Intel Cascade Lake 6248 CPU（用于聚类部分）时，实时因子约为 5%。

换句话说，处理一小时的对话大约需要 3 分钟。

准确性

该管道在不断增加的数据集上进行了基准测试。

处理过程完全自动化：

无需手动进行语音活动检测（文献中有时会这样做）
无需手动指定说话人数量（尽管可以将其提供给管道）
无需对内部模型进行微调，也无需为每个数据集调整管道超参数

... 采用最严格的说话人分割错误率（DER）设置（在本文中称为 "Full"）：

无宽容边界
评估重叠语音

基准测试	DER%	FA%	Miss%	Conf%	预期输出	文件级评估
AISHELL-4	14.61	3.31	4.35	6.95	RTTM	eval
AMI Mix-Headset only_words	18.21	3.28	11.07	3.87	RTTM	eval
AMI Array1-01 only_words	29.00	2.71	21.61	4.68	RTTM	eval
CALLHOME Part2	30.24	3.71	16.86	9.66	RTTM	eval
DIHARD 3 Full	20.99	4.25	10.74	6.00	RTTM	eval
REPERE Phase 2	12.62	1.55	3.30	7.76	RTTM	eval
VoxConverse v0.0.2	12.76	3.45	3.85	5.46	RTTM	eval

支持与反馈

商业咨询和科学咨询：请通过邮箱联系。
技术问题和错误报告：请查看 pyannote.audio 的 Github 仓库，在讨论区提出技术问题，在问题区报告错误。

引用

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}