M

Musical Instrument Detection

由 dima806 开发
基于wav2vec 2.0架构的语音识别基础模型,在960小时英语语音数据上预训练
下载量 2,109
发布时间 : 8/25/2023
模型介绍
内容详情
替代品

模型简介

该模型是一个语音识别基础模型,采用wav2vec 2.0架构,主要用于将语音转换为文本的任务。

模型特点

端到端语音识别
直接从原始音频学习语音表示,无需人工设计的特征提取
自监督预训练
利用大量未标注语音数据进行预训练,提高模型泛化能力
高效微调
可在少量标注数据上进行微调,适应特定语音识别任务

模型能力

英语语音识别
语音特征提取
语音转文本

使用案例

语音技术
语音助手
用于构建语音助手和对话系统的语音识别组件
字幕生成
将音频/视频内容自动转换为文字字幕
音乐分析
乐器检测
检测音频中的乐器类型(如Kaggle示例所示)
准确率指标可用