library_name: transformers
language:
- tr
license: mit
base_model: openai/whisper-large-v3-turbo
tags:
- generated_from_trainer
datasets:
- mozilla-foundation/common_voice_17_0
metrics:
- wer
model-index:
- name: "Whisper Large v3 Turbo 土耳其语版 - Selim Çavaş"
results:
- task:
name: 自动语音识别
type: automatic-speech-recognition
dataset:
name: Common Voice 17.0
type: mozilla-foundation/common_voice_17_0
config: tr
split: test
args: 'config: tr, split: test'
metrics:
- name: 词错误率
type: wer
value: 18.92291759135967
Whisper Large v3 Turbo 土耳其语版 - Selim Çavaş
该模型是基于openai/whisper-large-v3-turbo在Common Voice 17.0数据集上微调的版本。
在评估集上取得了以下结果:
使用场景与限制
本模型可应用于以下领域:
- 土耳其语语音转写
- 语音指令识别
- 土耳其语视频自动字幕生成
使用方法
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "selimc/whisper-large-v3-turbo-turkish"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)
pipe = pipeline(
"automatic-speech-recognition",
model=model,
tokenizer=processor.tokenizer,
feature_extractor=processor.feature_extractor,
chunk_length_s=30,
batch_size=16,
return_timestamps=True,
torch_dtype=torch_dtype,
device=device,
)
result = pipe("test.mp3")
print(result["text"])
训练过程
由于Colab GPU资源限制,仅使用了Common Voice 17.0数据集中25%的土耳其语数据进行训练。😔
如果您有闲置GPU资源,欢迎合作共同提升模型性能!🚀
训练超参数
- 学习率:1e-05
- 训练批大小:16
- 评估批大小:8
- 随机种子:42
- 优化器:Adam(beta=(0.9,0.999),epsilon=1e-08)
- 学习率调度器类型:线性
- 学习率预热步数:500
- 总训练步数:4000
- 混合精度训练:原生AMP
训练结果
训练损失 |
周期 |
步数 |
验证损失 |
词错误率 |
0.1223 |
1.6 |
1000 |
0.3187 |
24.4415 |
0.0501 |
3.2 |
2000 |
0.3123 |
20.9720 |
0.0226 |
4.8 |
3000 |
0.3010 |
19.6183 |
0.001 |
6.4 |
4000 |
0.3123 |
18.9229 |
框架版本
- Transformers 4.45.2
- Pytorch 2.4.1+cu121
- Datasets 3.0.1
- Tokenizers 0.20.1