whisper-large-v3-turbo-common_voice_19_0-zh-TW开源模型 - 精准实现繁体中文（台湾）语音识别

首页

Whisper Large V3 Turbo Common Voice 19 0 Zh TW

由 JacobLinCool 开发

基于OpenAI Whisper-large-v3-turbo微调的繁体中文（台湾）自动语音识别模型

语音识别

Transformers

中文开源协议:MIT #繁体中文语音识别 #低词错误率 #台湾口音优化

下载量 220

发布时间 : 10/31/2024

模型简介

这是一个针对繁体中文（台湾）优化的自动语音识别模型，基于Common Voice 19.0台湾中文数据集微调，支持无需提示的语音转文字任务。

模型特点

繁体中文优化

专门针对台湾地区繁体中文语音进行优化训练

大规模数据集

使用比标准Common Voice数据集大4倍的训练数据（约50k样本）

无需提示

设计为无需额外提示即可直接使用的ASR模型

继承Whisper能力

保留了原始Whisper模型的语言识别和支持多种中文变体的能力

模型能力

自动语音识别

繁体中文语音转录

语音转文字

使用案例

语音转录

会议记录

将台湾地区的中文会议录音自动转换为文字记录

词错误率32.56%，字符错误率8.60%

语音备忘录

将日常语音备忘录转换为可搜索的文字内容

无障碍应用

实时字幕生成

为台湾地区的视频内容生成实时中文字幕

🚀 whisper-large-v3-turbo-common_voice_19_0-zh-TW

本模型是基于transformers库微调的语音识别模型，在繁体中文（台湾）自动语音识别任务上表现出色，能有效将语音转换为文字。

🚀 快速开始

本模型是 openai/whisper-large-v3-turbo 在 JacobLinCool/common_voice_19_0_zh-TW 数据集上的微调版本。它在评估集上取得了以下结果：

损失率（Loss）：0.1786
词错误率（Wer）：32.5554
字符错误率（Cer）：8.6009
解码运行时间（Decode Runtime）：90.9833
词错误率运行时间（Wer Runtime）：0.1257
字符错误率运行时间（Cer Runtime）：0.1534

✨ 主要特性

开源易用：这是一个开源的繁体中文（台湾）自动语音识别（ASR）模型，遵循 MIT 许可证，可免费使用。
特定语言适配：专为繁体中文设计的免提示 ASR 模型。不过，由于继承了 Whisper 的语言识别（LID）系统，在处理简体中文时性能可能会下降。

📚 详细文档

模型描述

这是一个开源的繁体中文（台湾）自动语音识别（ASR）模型。

预期用途与限制

本模型旨在成为一个免提示的繁体中文 ASR 模型。由于它继承了 Whisper 的语言识别（LID）系统，该系统在同一语言标记（zh）下支持其他中文语言变体，因此我们预计在转录简体中文时性能可能会下降。

该模型在 MIT 许可证下可免费使用。

训练和评估数据

本模型在 Common Voice Corpus 19.0 Chinese (Taiwan) Subset 上进行训练，该数据集包含约 50k 个训练示例（44 小时）和 5k 个测试示例（5 小时）。这个数据集比 mozilla-foundation/common_voice_16_1 的训练集和验证集（train+validation）的组合大四倍，后者包含约 12k 个示例。

训练过程

Tensorboard

训练超参数

训练期间使用了以下超参数：

学习率（learning_rate）：0.0002
训练批次大小（train_batch_size）：4
评估批次大小（eval_batch_size）：32
随机种子（seed）：42
梯度累积步数（gradient_accumulation_steps）：8
总训练批次大小（total_train_batch_size）：32
优化器：使用 OptimizerNames.ADAMW_TORCH，β值为(0.9, 0.999)，ε值为 1e-08，无额外优化器参数
学习率调度器类型（lr_scheduler_type）：线性
学习率调度器热身步数（lr_scheduler_warmup_steps）：50
训练步数（training_steps）：5000

训练结果

训练损失率	轮数	步数	验证损失率	词错误率	字符错误率	解码运行时间	词错误率运行时间	字符错误率运行时间
无记录	0	0	2.7208	76.5011	20.4851	89.4916	0.1213	0.1639
1.1832	0.1	500	0.1939	39.9561	10.8721	90.0926	0.1222	0.1555
1.5179	0.2	1000	0.1774	37.6621	9.9322	89.8657	0.1225	0.1545
0.6179	0.3	1500	0.1796	36.2657	9.8325	90.2480	0.1198	0.1573
0.3626	1.0912	2000	0.1846	36.2258	9.7801	90.3306	0.1196	0.1539
0.1311	1.1912	2500	0.1776	34.8095	9.3214	90.3124	0.1286	0.1610
0.1263	1.2912	3000	0.1763	36.1261	9.3563	90.4271	0.1330	0.1650
0.2194	2.0825	3500	0.1891	34.6898	9.3114	91.1932	0.1320	0.1643
0.1127	2.1825	4000	0.1838	34.0714	9.1095	90.2416	0.1196	0.1529
0.3792	2.2824	4500	0.1786	33.1339	8.7679	90.9144	0.1310	0.1550
0.0606	3.0737	5000	0.1786	32.5554	8.6009	90.9833	0.1257	0.1534