库名称:transformers
语言:
- 中文
许可证:mit
基础模型:openai/whisper-large-v3-turbo
标签:
- wft
- whisper
- 自动语音识别
- 音频
- 语音
- 训练生成
数据集:
- JacobLinCool/common_voice_19_0_zh-TW
评估指标:
- wer
模型索引:
- 名称:whisper-large-v3-turbo-common_voice_19_0-zh-TW
结果:
- 任务:
类型:自动语音识别
名称:自动语音识别
数据集:
名称:JacobLinCool/common_voice_19_0_zh-TW
类型:JacobLinCool/common_voice_19_0_zh-TW
指标:
- 类型:wer
值:32.55535607420706
名称:Wer
whisper-large-v3-turbo-common_voice_19_0-zh-TW
此模型是基于JacobLinCool/common_voice_19_0_zh-TW数据集对openai/whisper-large-v3-turbo进行微调的版本。
在评估集上取得了以下结果:
- 损失:0.1786
- 词错误率(Wer):32.5554
- 字符错误率(Cer):8.6009
- 解码运行时间:90.9833
- Wer运行时间:0.1257
- Cer运行时间:0.1534
模型描述
这是一个开源的繁体中文(台湾)自动语音识别(ASR)模型。
预期用途与限制
此模型设计为无需提示的繁体中文ASR模型。由于继承了Whisper的语言识别(LID)系统,该系统支持同一语言标记(zh
)下的其他中文变体,因此在转录简体中文时性能可能会下降。
该模型在MIT许可证下可自由使用。
训练与评估数据
此模型基于Common Voice Corpus 19.0 Chinese (Taiwan) Subset进行训练,包含约50k训练样本(44小时)和5k测试样本(5小时)。此数据集比mozilla-foundation/common_voice_16_1的训练和验证集(train+validation
)大四倍,后者包含约12k样本。
训练过程
Tensorboard
训练超参数
训练过程中使用了以下超参数:
- 学习率:0.0002
- 训练批次大小:4
- 评估批次大小:32
- 随机种子:42
- 梯度累积步数:8
- 总训练批次大小:32
- 优化器:使用OptimizerNames.ADAMW_TORCH,beta=(0.9,0.999),epsilon=1e-08,无额外优化器参数
- 学习率调度器类型:线性
- 学习率预热步数:50
- 训练步数:5000
训练结果
训练损失 |
周期 |
步数 |
验证损失 |
Wer |
Cer |
解码运行时间 |
Wer运行时间 |
Cer运行时间 |
无记录 |
0 |
0 |
2.7208 |
76.5011 |
20.4851 |
89.4916 |
0.1213 |
0.1639 |
1.1832 |
0.1 |
500 |
0.1939 |
39.9561 |
10.8721 |
90.0926 |
0.1222 |
0.1555 |
1.5179 |
0.2 |
1000 |
0.1774 |
37.6621 |
9.9322 |
89.8657 |
0.1225 |
0.1545 |
0.6179 |
0.3 |
1500 |
0.1796 |
36.2657 |
9.8325 |
90.2480 |
0.1198 |
0.1573 |
0.3626 |
1.0912 |
2000 |
0.1846 |
36.2258 |
9.7801 |
90.3306 |
0.1196 |
0.1539 |
0.1311 |
1.1912 |
2500 |
0.1776 |
34.8095 |
9.3214 |
90.3124 |
0.1286 |
0.1610 |
0.1263 |
1.2912 |
3000 |
0.1763 |
36.1261 |
9.3563 |
90.4271 |
0.1330 |
0.1650 |
0.2194 |
2.0825 |
3500 |
0.1891 |
34.6898 |
9.3114 |
91.1932 |
0.1320 |
0.1643 |
0.1127 |
2.1825 |
4000 |
0.1838 |
34.0714 |
9.1095 |
90.2416 |
0.1196 |
0.1529 |
0.3792 |
2.2824 |
4500 |
0.1786 |
33.1339 |
8.7679 |
90.9144 |
0.1310 |
0.1550 |
0.0606 |
3.0737 |
5000 |
0.1786 |
32.5554 |
8.6009 |
90.9833 |
0.1257 |
0.1534 |
框架版本
- PEFT 0.13.2
- Transformers 4.46.1
- Pytorch 2.4.0
- Datasets 3.0.2
- Tokenizers 0.20.1