标签:
- pyannote
- pyannote音频
- pyannote音频模型
- 音频
- 语音
- 说话人
- 说话人分割
- 说话人变化检测
- 语音活动检测
- 重叠语音检测
- 重分割
许可证: MIT
推理: false
额外授权提示: "收集的信息将有助于更好地了解pyannote.audio用户群体,并帮助其维护者进一步改进。尽管此模型使用MIT许可证并将始终保持开源,我们会偶尔向您发送有关pyannote的付费模型和服务的电子邮件。"
额外授权字段:
公司/大学: 文本
网站: 文本
在生产环境中使用此开源模型?
考虑切换到pyannoteAI以获得更好更快的选择。
🎹 "幂集"说话人分割模型
该模型接收16kHz采样的10秒单声道音频,并输出说话人分割结果作为(num_frames, num_classes)矩阵,其中7个类别分别是_非语音_、说话人#1、说话人#2、说话人#3、说话人#1和#2、说话人#1和#3,以及_说话人#2和#3_。

duration, sample_rate, num_channels = 10, 16000, 1
waveform = torch.randn(batch_size, num_channels, duration * sample_rate)
powerset_encoding = model(waveform)
from pyannote.audio.utils.powerset import Powerset
max_speakers_per_chunk, max_speakers_per_frame = 3, 2
to_multilabel = Powerset(
max_speakers_per_chunk,
max_speakers_per_frame).to_multilabel
multilabel_encoding = to_multilabel(powerset_encoding)
该模型背后的各种概念在这篇论文中有详细描述。
该模型由Séverin Baroudi使用pyannote.audio 3.0.0
版本训练,结合了AISHELL、AliMeeting、AMI、AVA-AVD、DIHARD、Ego4D、MSDWild、REPERE和VoxConverse的训练集。
Alexis Plaquet提供的这个配套仓库还提供了如何在自己的数据上训练或微调此类模型的说明。
要求
- 使用
pip install pyannote.audio
安装pyannote.audio
3.0
- 接受
pyannote/segmentation-3.0
用户条款
- 在
hf.co/settings/tokens
创建访问令牌
使用
from pyannote.audio import Model
model = Model.from_pretrained(
"pyannote/segmentation-3.0",
use_auth_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE")
说话人分割
该模型不能单独用于完整录音的说话人分割(它仅处理10秒片段)。
参见pyannote/speaker-diarization-3.0管道,该管道使用额外的说话人嵌入模型来执行完整录音的说话人分割。
语音活动检测
from pyannote.audio.pipelines import VoiceActivityDetection
pipeline = VoiceActivityDetection(segmentation=model)
HYPER_PARAMETERS = {
"min_duration_on": 0.0,
"min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
vad = pipeline("audio.wav")
重叠语音检测
from pyannote.audio.pipelines import OverlappedSpeechDetection
pipeline = OverlappedSpeechDetection(segmentation=model)
HYPER_PARAMETERS = {
"min_duration_on": 0.0,
"min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
osd = pipeline("audio.wav")
引用
@inproceedings{Plaquet23,
author={Alexis Plaquet and Hervé Bredin},
title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
year=2023,
booktitle={Proc. INTERSPEECH 2023},
}
@inproceedings{Bredin23,
author={Hervé Bredin},
title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
year=2023,
booktitle={Proc. INTERSPEECH 2023},
}