多说话人分离

# 多说话人分离

Diar Sortformer 4spk V1

基于Sortformer架构的端到端说话人日志模型，通过按说话人语音段到达时间顺序解决日志中的排列问题，支持最多4个说话人识别。

说话人处理

Wsj0 2mix Skim Small Causal

这是一个基于ESPnet框架训练的语音增强模型，专门用于处理wsj0_2mix数据集中的混合语音信号分离任务。

音频增强英语

Sepformer Libri3mix

这是一个基于SepFormer架构的音频源分离模型，在Libri3Mix数据集上训练，能够将混合语音分离为多个独立音源。

声音分离英语

Sepformer Libri2mix

使用SepFormer架构实现的音频源分离模型，在Libri2Mix数据集上训练，可分离混合音频中的独立声源

声音分离英语

Sepformer Whamr

SepFormer是一种基于Transformer的音频源分离模型，在WHAMR!数据集上训练，用于分离混合语音信号。

声音分离英语

Sepformer Wsj03mix

这是一个使用SepFormer架构进行音频源分离的模型，在WSJ0-3Mix数据集上训练，能够将混合语音分离成独立的语音源。

声音分离英语

Sepformer Wsj02mix

基于SepFormer架构的音频源分离模型，在WSJ0-2Mix数据集上训练，能够将混合音频分离为独立的语音源。

声音分离英语

Convtasnet Libri3Mix Sepnoisy

基于Asteroid框架训练的ConvTasNet模型，用于含噪音频分离任务，训练数据来自Libri3Mix数据集。

Convtasnet Libri2Mix Sepnoisy 16k

基于Asteroid框架训练的ConvTasNet模型，用于含噪语音分离任务，在Libri2Mix数据集上训练。

Convtasnet Libri3Mix Sepnoisy 16k

基于Asteroid框架训练的ConvTasNet模型，用于从混合音频中分离噪声和语音信号。

Convtasnet Libri3Mix Sepclean 16k

基于Asteroid框架训练的ConvTasNet模型，用于语音分离任务，在Libri3Mix数据集上训练，支持16kHz采样率的音频输入。

Convtasnet Libri3Mix Sepnoisy 8k

基于Asteroid框架训练的ConvTasNet模型，用于从混合音频中分离出3个独立音源，特别针对8kHz采样率的含噪声语音数据优化。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24