A

Ast Finetuned Speech Commands V2

由 MIT 开发
基于Speech Commands v2数据集微调的音频频谱图变换器模型,用于音频分类任务,准确率达98.12%。
下载量 10.94k
发布时间 : 11/14/2022
模型介绍
内容详情
替代品

模型简介

该模型将音频转换为频谱图后应用视觉变换器架构,专门用于语音命令分类任务。

模型特点

高准确率
在Speech Commands v2数据集上达到98.12%的分类准确率
频谱图转换
将音频信号转换为频谱图后应用视觉变换器技术
端到端学习
直接从原始音频数据学习特征,无需手动特征工程

模型能力

语音命令识别
音频分类
短语音处理

使用案例

智能家居控制
语音控制设备
识别用户语音命令控制智能家居设备
高准确率识别常见控制指令
可访问性应用
语音辅助工具
为行动不便用户提供语音控制界面