wav2vec2 - 2 - gpt2 - regularisation开源ASR模型 - 免费将英语语音精准转文本

首页

Wav2vec2 2 Gpt2 Regularisation

由 sanchit-gandhi 开发

这是一个基于 LibriSpeech 数据集训练的自动语音识别(ASR)模型，能够将英语语音转换为文本。

语音识别

Transformers

#高词错误率 #英语语音识别 #低训练损失

下载量 20

发布时间 : 3/17/2022

模型简介

该模型是在 LibriSpeech ASR 数据集上从头开始训练的自动语音识别模型，主要用于英语语音转文本任务。

模型特点

高准确率

在 LibriSpeech 评估集上取得了较低的词错误率(WER)

端到端训练

模型是从头开始训练的，不依赖于预训练模型

优化训练

使用了 Adam 优化器和线性学习率调度器进行训练

模型能力

英语语音识别

连续语音转文本

大规模语音数据处理

使用案例

语音转录

有声书转录

将英语有声读物自动转录为文本

词错误率约为 0.9977

会议记录

自动记录英语会议内容

语音助手

语音命令识别

识别英语语音命令

训练损失	轮数	步数	验证损失	字错率（Wer）
3.5506	2.8	2500	4.4928	1.8772
0.5145	5.61	5000	1.8942	1.1063
0.2736	8.41	7500	1.6550	1.0372
0.0807	11.21	10000	1.7601	1.0004
0.0439	14.01	12500	1.8014	1.0022
0.043	16.82	15000	1.8534	1.0097
0.0434	19.62	17500	1.8529	0.9977

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Wav2vec2 2 Gpt2 Regularisation

模型简介

模型特点

模型能力

使用案例

🚀 语音识别模型

🚀 快速开始

🔧 技术细节

训练超参数

训练结果

框架版本