wav2vec2_common_voice_accents开源语音识别模型

首页

Wav2vec2 Common Voice Accents

由 willcai 开发

基于facebook/wav2vec2-xls-r-300m在common_voice数据集上微调的语音识别模型，支持多种口音识别

语音识别

Transformers

开源协议:Apache-2.0 #多口音语音识别 #低词错误率 #大规模预训练微调

下载量 24

发布时间 : 3/10/2022

模型简介

该模型是针对多种口音语音识别优化的wav2vec2模型，在common_voice数据集上微调，适用于需要处理不同口音语音的场景

模型特点

多口音支持

在common_voice数据集上微调，能够识别处理多种口音的语音

高效训练

使用混合精度训练和分布式训练技术，提高了训练效率

优化性能

经过30轮训练后，词错误率(WER)降至0.4269

模型能力

语音识别

多口音处理

语音转文本

使用案例

语音转录

会议记录

自动转录包含不同口音的会议录音

词错误率0.4269

语音助手

为语音助手提供更准确的口音识别能力

教育

语言学习应用

帮助语言学习者识别和纠正发音

训练损失	轮数	步数	验证损失	字错率（Wer）
4.0135	5.33	400	1.3259	0.8067
0.5608	10.67	800	0.7832	0.5024
0.1441	16.0	1200	0.9309	0.4698
0.0724	21.33	1600	0.9750	0.4461
0.0444	26.67	2000	0.9095	0.4269

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Wav2vec2 Common Voice Accents

模型简介

模型特点

模型能力

使用案例

🚀 wav2vec2_common_voice_accents

📚 详细文档

训练和评估数据

模型描述

预期用途和限制

🔧 技术细节

训练过程

训练超参数

训练结果

框架版本

📄 许可证