ast-finetuned-speech-commands-v2开源音频模型 - 高精度完成音频分类任务

首页

Ast Finetuned Speech Commands V2

由 MIT 开发

基于Speech Commands v2数据集微调的音频频谱图变换器模型，用于音频分类任务，准确率达98.12%。

音频分类

Transformers

开源协议:Bsd-3-clause #高精度音频分类 #语音指令识别 #频谱图变换器

下载量 10.94k

发布时间 : 11/14/2022

模型简介

该模型将音频转换为频谱图后应用视觉变换器架构，专门用于语音命令分类任务。

模型特点

高准确率

在Speech Commands v2数据集上达到98.12%的分类准确率

频谱图转换

将音频信号转换为频谱图后应用视觉变换器技术

端到端学习

直接从原始音频数据学习特征，无需手动特征工程

模型能力

语音命令识别

音频分类

短语音处理

使用案例

智能家居控制

语音控制设备

识别用户语音命令控制智能家居设备

高准确率识别常见控制指令

可访问性应用

语音辅助工具

为行动不便用户提供语音控制界面

属性	详情
模型类型	音频频谱图变换器（在语音命令v2上微调）
训练数据	语音命令v2
任务类型	音频分类
评估指标	准确率：98.12%

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Ast Finetuned Speech Commands V2

模型简介

模型特点

模型能力

使用案例

🚀 音频频谱图变换器（在语音命令v2上微调）

✨ 主要特性

📚 详细文档

模型描述

使用说明

模型指标

免责声明

📄 许可证