speaker-diarization-optimized开源说话人分割模型 - 自动检测音频说话人变化与分割片段

首页

Speaker Diarization Optimized

由 G-Root 开发

Pyannote.audio的说话人分割管道，用于自动检测音频中的说话人变化和分割语音片段

说话人处理开源协议:MIT #说话人分割 #重叠语音检测 #多场景适配

下载量 349

发布时间 : 1/25/2024

模型简介

这是一个用于说话人分割的音频处理管道，能够自动检测音频中的说话人变化、识别重叠语音，并输出说话人分割结果。它支持16kHz采样的单声道音频，可自动处理立体声/多声道音频的降混和重采样。

模型特点

纯PyTorch实现

移除了有问题的onnxruntime依赖，完全使用PyTorch运行，简化部署并可能加速推理

自动处理

完全自动化处理，无需手动语音活动检测或指定说话人数量

多格式支持

支持输出RTTM格式的分割结果，方便后续处理和分析

GPU加速

支持在GPU上运行以加速处理

模型能力

说话人分割

语音活动检测

重叠语音检测

自动说话人计数

音频降混处理

音频重采样

使用案例

会议记录

会议记录分割

自动分割会议录音中的不同发言人

提高会议记录效率，减少人工转录时间

媒体分析

广播节目分析

分析广播节目中的主持人切换和嘉宾发言

帮助内容分析人员快速了解节目结构

语音研究

语音数据库标注

自动为语音数据库添加说话人标签

大幅减少人工标注工作量

🚀 🎹说话人分割 3.1

本管道与 pyannote/speaker-diarization-3.0 基本相同，不同之处在于它移除了对 onnxruntime 的有问题的使用。说话人分割和嵌入现在都完全在 PyTorch 中运行，这将简化部署过程，并可能加快推理速度。该管道需要 pyannote.audio 版本 3.1 或更高版本。

使用此开源管道进行生产？借助我们的咨询服务充分发挥其作用。

🚀 快速开始

本管道接收采样率为 16kHz 的单声道音频，并将说话人分割结果输出为一个 Annotation 实例：

立体声或多声道音频文件会通过对各声道求平均值自动降混为单声道。
采样率不同的音频文件在加载时会自动重新采样为 16kHz。

✨ 主要特性

移除了对 onnxruntime 的有问题使用，说话人分割和嵌入都在纯 PyTorch 中运行，简化部署并可能加快推理速度。
能自动处理立体声或多声道音频文件，将其降混为单声道；自动对不同采样率的音频文件重新采样为 16kHz。

📦 安装指南

使用 pip install pyannote.audio 安装 pyannote.audio 3.1 版本。
接受 pyannote/segmentation-3.0 的用户使用条件。
接受 pyannote/speaker-diarization-3.1 的用户使用条件。
在 hf.co/settings/tokens 创建访问令牌。

💻 使用示例

基础用法

# 实例化管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained(
  "pyannote/speaker-diarization-3.1",
  use_auth_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE")

# 在音频文件上运行管道
diarization = pipeline("audio.wav")

# 使用 RTTM 格式将说话人分割输出保存到磁盘
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

高级用法

在 GPU 上处理

pyannote.audio 管道默认在 CPU 上运行，你可以使用以下代码将其发送到 GPU：

import torch
pipeline.to(torch.device("cuda"))

从内存中处理

预先将音频文件加载到内存中可能会加快处理速度：

import torchaudio
waveform, sample_rate = torchaudio.load("audio.wav")
diarization = pipeline({"waveform": waveform, "sample_rate": sample_rate})

监控进度

可以使用钩子来监控管道的进度：

from pyannote.audio.pipelines.utils.hook import ProgressHook
with ProgressHook() as hook:
    diarization = pipeline("audio.wav", hook=hook)

控制说话人数量

如果事先知道说话人的数量，可以使用 num_speakers 选项：

diarization = pipeline("audio.wav", num_speakers=2)

也可以使用 min_speakers 和 max_speakers 选项提供说话人数量的下限和/或上限：

diarization = pipeline("audio.wav", min_speakers=2, max_speakers=5)

📚 详细文档

基准测试

本管道已在大量数据集上进行了基准测试。处理过程完全自动化：

无需手动进行语音活动检测（文献中有时会有此操作）。
无需手动指定说话人数量（尽管可以向管道提供此信息）。
无需对内部模型进行微调，也无需针对每个数据集调整管道的超参数。

... 采用最严格的说话人分割错误率（DER）设置（在本文中称为 “Full”）：

不使用宽容边界。
对重叠语音进行评估。

基准测试数据集	DER%	FA%	Miss%	Conf%	预期输出	文件级评估
AISHELL - 4	12.2	3.8	4.4	4.0	RTTM	eval
AliMeeting (通道 1)	24.4	4.4	10.0	10.0	RTTM	eval
AMI (头戴式麦克风混音, 仅单词)	18.8	3.6	9.5	5.7	RTTM	eval
AMI (阵列 1，通道 1, 仅单词)	22.4	3.8	11.2	7.5	RTTM	eval
AVA - AVD	50.0	10.8	15.7	23.4	RTTM	eval
DIHARD 3 (Full)	21.7	6.2	8.1	7.3	RTTM	eval
MSDWild	25.3	5.8	8.0	11.5	RTTM	eval
REPERE (阶段 2)	7.8	1.8	2.6	3.5	RTTM	eval
VoxConverse (v0.3)	11.3	4.1	3.4	3.8	RTTM	eval

📄 许可证

本项目采用 MIT 许可证。

收集的信息将有助于更好地了解 pyannote.audio 的用户群体，并帮助其维护者进一步改进它。尽管此管道使用 MIT 许可证，并且将始终保持开源，但我们偶尔会通过电子邮件向你介绍有关 pyannote 的高级管道和付费服务。

📚 引用

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}