wespeaker-voxceleb-resnet293-LM开源模型 - 支持说话人识别、相似度计算等任务

首页

Wespeaker Voxceleb Resnet293 LM

由 Wespeaker 开发

基于ResNet293架构的说话人嵌入模型，经过大间隔微调优化，支持说话人识别、相似度计算和语音分割等任务

说话人处理英语#说话人识别 #大间隔微调优化 #多说话人场景

下载量 108

发布时间 : 12/28/2023

模型简介

该模型由Wespeaker项目提供，采用ResNet293架构并经过大间隔微调优化，主要用于说话人识别和语音处理任务。在VoxCeleb2开发数据集上训练，包含5994名说话人。

模型特点

大间隔微调优化

采用大间隔微调技术优化模型性能，显著提升说话人识别准确率

高效架构

基于ResNet293架构，在保持高性能的同时控制计算量

多任务支持

支持说话人嵌入提取、相似度计算和语音分割等多种任务

模型能力

说话人识别

说话人相似度计算

语音分割

说话人注册与识别

使用案例

语音生物识别

说话人验证

验证音频样本是否属于特定说话人

在VoxCeleb测试集上EER为0.447

语音分析

会议语音分割

识别和分割会议录音中的不同说话人

🚀 基于ResNet293的说话人嵌入模型

这是由 Wespeaker 项目提供的官方模型，基于ResNet293的r-向量（经过大间隔微调）。该模型在VoxCeleb2 Dev数据集上进行训练，该数据集包含5994个说话人。

🚀 快速开始

本模型由 Wespeaker 项目提供，基于ResNet293的r-向量（经过大间隔微调）。模型在包含5994个说话人的VoxCeleb2 Dev数据集上训练得到。

✨ 主要特性

由Wespeaker项目官方提供，具有较高的可靠性和专业性。
基于ResNet293架构，经过大间隔微调，能有效提取说话人特征。
在VoxCeleb数据集上有良好的表现。

📦 安装指南

常规安装

pip install git+https://github.com/wenet-e2e/wespeaker.git

开发环境安装

git clone https://github.com/wenet-e2e/wespeaker.git
cd wespeaker
pip install -e .

💻 使用示例

基础用法

命令行使用

$ wespeaker -p resnet293_download_dir --task embedding --audio_file audio.wav --output_file embedding.txt
$ wespeaker -p resnet293_download_dir --task embedding_kaldi --wav_scp wav.scp --output_file /path/to/embedding
$ wespeaker -p resnet293_download_dir --task similarity --audio_file audio.wav --audio_file2 audio2.wav
$ wespeaker -p resnet293_download_dir --task diarization --audio_file audio.wav

Python编程使用

import wespeaker

model = wespeaker.load_model_local(resnet293_download_dir)
# set_gpu to enable the cuda inference, number < 0 means using CPU
model.set_gpu(0)

# embedding/embedding_kaldi/similarity/diarization
embedding = model.extract_embedding('audio.wav')
utt_names, embeddings = model.extract_embedding_list('wav.scp')
similarity = model.compute_similarity('audio1.wav', 'audio2.wav')
diar_result = model.diarize('audio.wav')

# register and recognize
model.register('spk1', 'spk1_audio1.wav')
model.register('spk2', 'spk2_audio1.wav')
model.register('spk3', 'spk3_audio1.wav')
result = model.recognize('spk1_audio2.wav')

📚 详细文档

模型来源

仓库地址：https://github.com/wenet-e2e/wespeaker
论文地址：https://arxiv.org/pdf/2210.17016.pdf
演示地址：https://huggingface.co/spaces/wenet/wespeaker_demo

VoxCeleb数据集上的结果

模型	参数数量	浮点运算次数	大间隔微调	自适应标准化	vox1-O-clean	vox1-E-clean	vox1-H-clean
ResNet293-TSTP-emb256	28.62M	28.10G	×	×	0.595	0.756	1.433
			×	√	0.537	0.701	1.276
			√	×	0.532	0.707	1.311
			√	√	0.447	0.657	1.183

📄 许可证

本模型采用CC BY 4.0许可证。

📚 引用信息

@inproceedings{wang2023wespeaker,
  title={Wespeaker: A research and production oriented speaker embedding learning toolkit},
  author={Wang, Hongji and Liang, Chengdong and Wang, Shuai and Chen, Zhengyang and Zhang, Binbin and Xiang, Xu and Deng, Yanlei and Qian, Yanmin},
  booktitle={IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={1--5},
  year={2023},
  organization={IEEE}
}