许可协议: cc-by-4.0
支持语言:
- 英语
任务类型: 文本摘要
标签:
- 说话人嵌入
- wespeaker
- 说话人建模
由Wespeaker项目提供的官方模型,基于ResNet34架构的r-vector(经过大间隔微调)
该模型在VoxCeleb2开发数据集上训练,包含5994位说话人。
模型来源
- 代码仓库: https://github.com/wenet-e2e/wespeaker
- 论文: https://arxiv.org/pdf/2210.17016.pdf
- 演示: https://huggingface.co/spaces/wenet/wespeaker_demo
VoxCeleb测试结果
模型 |
参数量 |
计算量 |
大间隔微调 |
AS标准化 |
vox1-O-clean |
vox1-E-clean |
vox1-H-clean |
ResNet34-TSTP-emb256 |
6.63M |
4.55G |
× |
× |
0.867 |
1.049 |
1.959 |
|
|
|
× |
√ |
0.787 |
0.964 |
1.726 |
|
|
|
√ |
× |
0.797 |
0.937 |
1.695 |
|
|
|
√ |
√ |
0.723 |
0.867 |
1.532 |
安装Wespeaker
pip install git+https://github.com/wenet-e2e/wespeaker.git
开发模式安装:
git clone https://github.com/wenet-e2e/wespeaker.git
cd wespeaker
pip install -e .
命令行使用
$ wespeaker -p ResNet34下载目录 --task embedding --audio_file 音频.wav --output_file 嵌入向量.txt
$ wespeaker -p ResNet34下载目录 --task embedding_kaldi --wav_scp 音频列表.scp --output_file 嵌入向量保存路径
$ wespeaker -p ResNet34下载目录 --task similarity --audio_file 音频1.wav --audio_file2 音频2.wav
$ wespeaker -p ResNet34下载目录 --task diarization --audio_file 音频.wav
Python编程使用
import wespeaker
model = wespeaker.load_model_local(ResNet34下载目录)
model.set_gpu(0)
embedding = model.extract_embedding('音频.wav')
utt_names, embeddings = model.extract_embedding_list('音频列表.scp')
similarity = model.compute_similarity('音频1.wav', '音频2.wav')
diar_result = model.diarize('音频.wav')
model.register('说话人1', '说话人1_音频1.wav')
model.register('说话人2', '说话人2_音频1.wav')
model.register('说话人3', '说话人3_音频1.wav')
result = model.recognize('说话人1_音频2.wav')
引用文献
@article{zeinali2019rvector,
title={But系统在VoxCeleb说话人识别挑战赛2019的技术报告},
author={Zeinali, Hossein and Wang, Shuai and Silnova, Anna and Mat{\v{e}}jka, Pavel and Plchot, Old{\v{r}}ich},
journal={arXiv预印本 arXiv:1910.12592},
year={2019}
}
@inproceedings{wang2023wespeaker,
title={Wespeaker:面向研究与生产的说话人嵌入学习工具包},
author={Wang, Hongji and Liang, Chengdong and Wang, Shuai and Chen, Zhengyang and Zhang, Binbin and Xiang, Xu and Deng, Yanlei and Qian, Yanmin},
booktitle={IEEE声学、语音与信号处理国际会议(ICASSP)},
pages={1--5},
year={2023},
organization={IEEE}
}