D

Dasheng 1.2B

由 mispeech 开发
大声是一个基于大规模自监督学习训练的通用音频编码器,能够捕捉跨语音、音乐和环境音等多领域的丰富音频信息。
下载量 135
发布时间 : 6/6/2024
模型介绍
内容详情
替代品

模型简介

大声是一个12亿参数规模的通用音频编码器,通过272,356小时的多样化音频训练,在语音、音乐和环境音分类任务中表现优异。

模型特点

大规模训练
使用272,356小时的多样化音频数据进行训练
多领域适用
能够处理语音、音乐和环境音等多种音频类型
高性能
在HEAR基准测试中超越先前成果,在多个任务上表现优异
通用编码器
可提取适用于多种下游任务的音频嵌入特征

模型能力

音频特征提取
语音分类
音乐分类
环境音分类
音频嵌入生成

使用案例

语音处理
语音命令识别
识别短语音命令
在Speech Commands任务上表现优异
说话人计数
统计音频中的说话人数量
在LibriCount任务上取得良好效果
音乐分析
音乐分类
对音乐片段进行分类
在音乐分类任务中表现优异
环境音分析
环境音识别
识别环境中的各种声音
在环境音分类任务中表现良好