whisper-large-v3-ft-cv16-mn开源语音识别模型

Whisper Large V3 Ft Cv16 Mn

由 sanchit-gandhi 开发

基于OpenAI Whisper Large V3模型在Common Voice 16.0数据集上微调的语音识别模型

下载量 34

发布时间 : 1/22/2024

模型简介

该模型是OpenAI Whisper Large V3的微调版本，专注于自动语音识别(ASR)任务，在Common Voice数据集上取得了35.22%的词错误率。

高精度语音识别

在Common Voice测试集上取得35.22%的词错误率，表现优异

多语言支持

基于Whisper架构，具备处理多种语言的能力

高效微调

在基础模型上进行针对性训练，提升特定领域的识别准确率

语音转文本

多语言语音识别

长音频处理

语音转录

会议记录自动生成

将会议录音自动转换为文字记录

准确率约65%(基于WER指标推断)

播客字幕生成

为播客内容自动生成字幕

辅助技术

听力障碍辅助

实时语音转文字辅助听障人士

训练损失	轮数	步数	验证损失	词错误率（Wer）
0.1552	4.35	500	0.5883	51.6576
0.007	8.7	1000	0.4691	35.2228

属性	详情
基础模型	openai/whisper-large-v3
标签	generated_from_trainer
数据集	common_voice_16_0
评估指标	wer
任务	自动语音识别（Automatic Speech Recognition）
评估数据集	common_voice_16_0（配置：mn，分割：测试，参数：mn）
评估结果（Wer）	35.22282608695652