pyannote-segmentation开源说话人分割模型 - 处理10秒音频识别多说话人及重叠情况

首页

Pyannote Segmentation

由 it-just-works 开发

这是一个基于幂集编码的说话人分割模型，能够处理10秒音频片段并识别多个说话人及其重叠情况。

说话人处理

PyTorch

开源协议:MIT #多说话人重叠检测 #语音活动分割 #实时音频处理

下载量 771

发布时间 : 4/10/2025

模型简介

该模型用于音频中的说话人分割，可检测最多3个说话人及其重叠情况，输出7种可能的说话人组合状态。

模型特点

幂集编码

使用独特的幂集编码方式处理多说话人场景，可同时识别单个说话人和重叠说话人

多任务支持

同一模型可用于说话人分割、语音活动检测和重叠语音检测

高效处理

专为10秒音频片段优化，适合实时或批量处理

模型能力

说话人分割

语音活动检测

重叠语音检测

多说话人识别

使用案例

会议记录

会议发言记录

自动识别会议中不同发言者及其发言时间

准确分割各发言者语音段

语音分析

重叠语音检测

检测对话中多人同时说话的情况

识别重叠语音段

🚀 "Powerset" 说话人分割模型

本项目是一个开源的说话人分割模型，它能够对音频进行处理，输出说话人分离的结果。该模型以16kHz采样的10秒单声道音频为输入，输出说话人分离矩阵，为音频处理和分析提供了强大的支持。

🚀 快速开始

如果你在生产环境中使用这个开源模型，建议考虑切换到 pyannoteAI，以获取更好、更快的选择。

✨ 主要特性

此模型接收16kHz采样的10秒单声道音频，并将说话人分离结果输出为一个 (num_frames, num_classes) 矩阵。其中，7个类别分别为 非语音、说话人 #1、说话人 #2、说话人 #3、说话人 #1 和 #2、说话人 #1 和 #3 以及 说话人 #2 和 #3。

示例输出

📦 安装指南

使用 pip install pyannote.audio 安装版本为 3.0 的 pyannote.audio。
接受 pyannote/segmentation-3.0 的用户使用条件。
在 hf.co/settings/tokens 创建访问令牌。

💻 使用示例

基础用法

# waveform (first row)
duration, sample_rate, num_channels = 10, 16000, 1
waveform = torch.randn(batch_size, num_channels, duration * sample_rate) 

# powerset multi-class encoding (second row)
powerset_encoding = model(waveform)

# multi-label encoding (third row)
from pyannote.audio.utils.powerset import Powerset
max_speakers_per_chunk, max_speakers_per_frame = 3, 2
to_multilabel = Powerset(
    max_speakers_per_chunk, 
    max_speakers_per_frame).to_multilabel
multilabel_encoding = to_multilabel(powerset_encoding)

高级用法

说话人分离

此模型本身不能对完整录音进行说话人分离（它仅处理10秒的音频块）。可参考 pyannote/speaker-diarization-3.0 管道，该管道使用额外的说话人嵌入模型来对完整录音进行说话人分离。

语音活动检测

from pyannote.audio.pipelines import VoiceActivityDetection
pipeline = VoiceActivityDetection(segmentation=model)
HYPER_PARAMETERS = {
  # remove speech regions shorter than that many seconds.
  "min_duration_on": 0.0,
  # fill non-speech regions shorter than that many seconds.
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
vad = pipeline("audio.wav")
# `vad` is a pyannote.core.Annotation instance containing speech regions

重叠语音检测

from pyannote.audio.pipelines import OverlappedSpeechDetection
pipeline = OverlappedSpeechDetection(segmentation=model)
HYPER_PARAMETERS = {
  # remove overlapped speech regions shorter than that many seconds.
  "min_duration_on": 0.0,
  # fill non-overlapped speech regions shorter than that many seconds.
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
osd = pipeline("audio.wav")
# `osd` is a pyannote.core.Annotation instance containing overlapped speech regions

📚 详细文档

该模型背后的各种概念在这篇论文中有详细描述。

它由 Séverin Baroudi 使用 pyannote.audio 3.0.0 进行训练，训练集结合了 AISHELL、AliMeeting、AMI、AVA - AVD、DIHARD、Ego4D、MSDWild、REPERE 和 VoxConverse。

由 Alexis Plaquet 维护的配套仓库还提供了如何在你自己的数据上训练或微调此类模型的说明。

📄 许可证

本项目采用 MIT 许可证。

📚 引用

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}