wav2vec2-xl-960h-dementiabank开源语音识别模型 - 免费实现高效语音转文本

Wav2vec2 Xl 960h Dementiabank

由 shields 开发

该模型是基于facebook/wav2vec2-large-960h在DementiaBank数据集上微调的语音识别模型，主要用于语音转文本任务。

下载量 20

发布时间 : 3/2/2022

模型简介

这是一个基于wav2vec2架构的语音识别模型，经过微调后可能特别适用于老年痴呆症患者的语音识别场景。

高精度语音识别

基于wav2vec2-xl架构，提供高质量的语音转文本能力

特定领域微调

在DementiaBank数据集上微调，可能更适合识别老年痴呆症患者的语音特征

预训练基础

基于facebook/wav2vec2-large-960h预训练模型，具有强大的语音理解能力

英语语音识别

语音转文本

特定人群语音识别

医疗健康

老年痴呆症患者语音分析

用于识别和分析老年痴呆症患者的语音特征

语音转录

医疗访谈记录

将医生与患者的对话自动转录为文字

训练损失	轮数	步数	验证损失	字错率（Wer）
13934.5266	0.31	10	71265.4531	1.0
13443.6406	0.62	20	69977.6016	1.0
9336.9562	0.94	30	13763.1484	0.9843
2970.977	1.25	40	17587.7656	0.9860
1916.3354	1.56	50	4328.4521	1.0
1417.5775	1.88	60	4486.8071	0.9860
1841.7689	2.19	70	2988.0303	1.0
1355.0265	2.5	80	2972.6094	0.9860
1359.7979	2.81	90	3483.2146	0.9860