digit - mask - data2vec - audio - base - 960h - ft开源音频数字识别模型，数字掩码数据集表现出色

首页

Digit Mask Data2vec Audio Base 960h Ft

由 mazkooleg 开发

基于data2vec-audio-base-960h微调的音频数字识别模型，在数字掩码增强数据集上表现出色

音频分类

Transformers

开源协议:Apache-2.0 #音频数字识别 #高精度分类 #数据增强训练

下载量 14

发布时间 : 5/7/2023

模型简介

该模型是针对音频数字识别任务优化的版本，特别适用于处理数字掩码场景下的音频数据

模型特点

高准确率数字识别

在评估集上达到99.91%的准确率和F1值

针对数字掩码优化

专门针对数字掩码场景进行训练和优化

基于data2vec微调

基于强大的data2vec音频基础模型进行微调

模型能力

音频数字识别

处理掩码音频

高精度分类

使用案例

语音处理

电话数字识别

识别电话语音中的数字输入

99.91%准确率

语音验证码识别

解析语音验证码中的数字序列

训练损失	轮数	步数	准确率	F1值	验证损失
0.0167	1.0	14264	0.9975	0.9975	0.0108
0.0016	2.0	28528	0.9991	0.9991	0.0067
0.0063	3.0	42792	0.9987	0.9987	0.0078

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Digit Mask Data2vec Audio Base 960h Ft

模型简介

模型特点

模型能力

使用案例

🚀 data2vec-audio-base-960h-digit-mask-ft

🚀 快速开始

📚 详细文档

模型描述

预期用途与限制

训练和评估数据

训练过程

训练超参数

训练结果

框架版本

📄 许可证