wav2vec2-large-xlsr-53-demo-colab开源语音识别模型 - 精准进行鲁棒语音事件识别

首页

Wav2vec2 Large Xlsr 53 Demo Colab

由 emre 开发

该模型是基于facebook/wav2vec2-large-xlsr-53在common_voice数据集上微调得到的语音识别模型，主要用于鲁棒语音事件识别。

语音识别

Transformers

开源协议:Apache-2.0 #多语言语音识别 #鲁棒语音处理 #XLSR微调

下载量 16

发布时间 : 3/2/2022

模型简介

这是一个基于wav2vec2架构的语音识别模型，经过微调后适用于common_voice数据集，能够将语音转换为文本。

模型特点

基于wav2vec2架构

采用facebook的wav2vec2-large-xlsr-53作为基础模型，具有强大的语音特征提取能力。

Common Voice数据集微调

在Common Voice数据集上进行微调，增强了模型的鲁棒性和适应性。

相对较低的词错误率

在评估集上取得了0.4834的词错误率(WER)，表现良好。

模型能力

语音识别

语音转文本

鲁棒语音事件检测

使用案例

语音转写

语音转录

将语音内容自动转换为文本格式

词错误率0.4834

语音助手

语音指令识别

识别用户语音指令并转换为可执行命令

训练损失	轮数	步数	验证损失	字错率（Wer）
5.1516	4.21	400	2.7673	1.0
0.9134	8.42	800	0.4618	0.6418
0.3273	12.63	1200	0.4188	0.5535
0.2252	16.84	1600	0.4144	0.5232
0.1692	21.05	2000	0.3995	0.5030
0.1355	25.26	2400	0.4073	0.4920
0.1172	29.47	2800	0.3966	0.4834

属性	详情
模型类型	wav2vec2-large-xlsr-53-demo-colab
训练数据	common_voice

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Wav2vec2 Large Xlsr 53 Demo Colab

模型简介

模型特点

模型能力

使用案例

🚀 wav2vec2-large-xlsr-53-demo-colab

🚀 快速开始

🔧 技术细节

训练超参数

训练结果

框架版本

📄 许可证