D

Dasheng Base

由 mispeech 开发
大规模通用音频编码器,通过自监督学习训练,支持语音、音乐和环境音等多领域音频信息处理
下载量 273
发布时间 : 6/6/2024

模型简介

大声是一个基于大规模自监督学习任务训练的通用音频编码器,旨在捕捉跨语音、音乐和环境音等多领域的丰富音频信息。

模型特点

大规模训练
训练数据涵盖272,356小时多样化音频
多领域适用
能够处理语音、音乐和环境音等多种音频类型
高性能表现
在HEAR基准测试中展现出显著性能提升,超越先前成果

模型能力

音频特征提取
语音分类
音乐分类
环境音分类
音频嵌入生成

使用案例

语音处理
语音命令识别
用于识别语音命令
在Speech Commands任务上表现优异
说话人识别
用于识别不同说话人
在VoxLingua任务上表现优异
音乐分析
音乐分类
对音乐类型进行分类
在音乐分类任务中表现优异
环境音分析
环境音分类
对环境声音进行分类
在环境音分类任务中表现优异
AIbase
智启未来,您的人工智能解决方案智库
简体中文