speaker-segmentation开源说话人分割模型 - 检测音频说话人变化与语音活动

首页

Speaker Segmentation

由 pyannote 开发

基于pyannote.audio的说话人分割模型，用于检测音频中的说话人变化和语音活动

说话人处理开源协议:MIT #说话人分割 #重叠语音检测 #端到端模型

下载量 182

发布时间 : 3/2/2022

模型简介

该模型专注于说话人分割任务，能够识别音频中不同说话人的语音片段，但不处理说话人日志（speaker diarization）。

模型特点

端到端说话人分割

支持端到端的说话人分割处理，能够识别音频中的说话人变化

重叠语音检测

能够检测重叠的语音片段

语音活动检测

可识别音频中的语音活动区域

模型能力

说话人变化检测

语音活动检测

重叠语音检测

音频分割

使用案例

语音分析

会议记录分析

分析会议录音中的不同发言者片段

可准确分割不同发言者的语音片段

访谈转录

为访谈录音分割不同说话人的语音

便于后续的转录和内容分析

🚀 🎹 说话人分割

本项目基于 pyannote.audio 实现说话人分割功能，能够对音频中的不同说话人进行有效分割。借助该模型，可在音频处理、语音识别等领域发挥重要作用。

🚀 快速开始

若要在生产环境中使用此开源模型，可考虑切换至 pyannoteAI 以获取更优更快的选择。

本模型依赖于 pyannote.audio 2.1，请参考安装说明进行安装。

💻 使用示例

基础用法

# 1. 访问 hf.co/pyannote/segmentation 并接受用户条款
# 2. 访问 hf.co/settings/tokens 创建访问令牌
# 3. 实例化预训练的说话人分割管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-segmentation")
output = pipeline("audio.wav")

for turn, _, speaker in output.itertracks(yield_label=True):
    # 说话人在 turn.start 和 turn.end 之间说话
    ...

⚠️ 此管道不处理说话人日记化。

📚 详细文档

支持

商业咨询和科学咨询，请联系我。
技术问题请查看技术问题讨论，bug 报告请查看 bug 报告，更多内容请参考 pyannote.audio 的 Github 仓库。

引用

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}

标签和数据集

属性	详情
标签	pyannote、pyannote-audio、pyannote-audio-pipeline、audio、voice、speech、speaker、speaker-segmentation、speaker-diarization、speaker-change-detection、voice-activity-detection、overlapped-speech-detection、automatic-speech-recognition
数据集	ami、dihard、voxconverse

许可证

本项目采用 MIT 许可证。

额外提示

⚠️ 重要提示

收集的信息将有助于更好地了解 pyannote.audio 的用户群体，并帮助其维护者申请资助以进一步改进它。如果您是学术研究人员，请在自己的出版物中引用相关论文。如果您为公司工作，请考虑为 pyannote.audio 的开发做出贡献（例如，通过无限制捐赠）。我们还提供围绕说话人日记化和机器听觉的科学咨询服务。