whisper-fa-tinyyy开源波斯语自动语音识别模型

首页

Whisper Fa Tinyyy

由 hackergeek98 开发

基于OpenAI Whisper-tiny微调的波斯语自动语音识别模型，在common_voice_11_0数据集上训练

语音识别

Transformers

其他开源协议:MIT #波斯语语音识别 #轻量级ASR模型 #CommonVoice微调

下载量 55

发布时间 : 3/23/2025

模型简介

这是一个专门针对波斯语优化的自动语音识别(ASR)模型，适用于将波斯语语音转换为文本的任务。

模型特点

波斯语优化

专门针对波斯语语音特性进行微调，提高识别准确率

轻量级模型

基于Whisper-tiny架构，适合资源有限的环境部署

长音频处理

提供音频分割功能，可处理超过30秒的长音频

模型能力

波斯语语音识别

音频文件转录

长音频分段处理

使用案例

语音转录

波斯语会议记录

将波斯语会议录音自动转换为文字记录

波斯语媒体内容字幕生成

为波斯语视频自动生成字幕

语音助手

波斯语语音指令识别

在波斯语语音助手中识别用户指令

🚀 波斯语微调版Whisper语音识别模型

本项目的模型是基于openai/whisper-tiny在common_voice_11_0数据集上微调得到的语音识别模型，可用于自动语音识别任务，在评估集上有较好的表现。

🚀 快速开始

以下是在Colab中使用该模型的步骤：

# 安装所需的包
!pip install torch torchaudio transformers pydub google-colab

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from pydub import AudioSegment
import os
from google.colab import files

# 加载模型和处理器
model_id = "hackergeek98/whisper-fa-tinyyy"
device = "cuda" if torch.cuda.is_available() else "cpu"

model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)
processor = AutoProcessor.from_pretrained(model_id)

# 创建pipeline
whisper_pipe = pipeline(
    "automatic-speech-recognition", model=model, tokenizer=processor.tokenizer, feature_extractor=processor.feature_extractor, device=0 if torch.cuda.is_available() else -1
)

# 将音频转换为WAV格式
def convert_to_wav(audio_path):
    audio = AudioSegment.from_file(audio_path)
    wav_path = "converted_audio.wav"
    audio.export(wav_path, format="wav")
    return wav_path

# 将长音频分割成块
def split_audio(audio_path, chunk_length_ms=30000):  # 默认：每块30秒
    audio = AudioSegment.from_wav(audio_path)
    chunks = [audio[i:i+chunk_length_ms] for i in range(0, len(audio), chunk_length_ms)]
    chunk_paths = []

    for i, chunk in enumerate(chunks):
        chunk_path = f"chunk_{i}.wav"
        chunk.export(chunk_path, format="wav")
        chunk_paths.append(chunk_path)

    return chunk_paths

# 转录长音频文件
def transcribe_long_audio(audio_path):
    wav_path = convert_to_wav(audio_path)
    chunk_paths = split_audio(wav_path)
    transcription = ""

    for chunk in chunk_paths:
        result = whisper_pipe(chunk)
        transcription += result["text"] + "\n"
        os.remove(chunk)  # 删除已处理的块

    os.remove(wav_path)  # 清理原始文件

    # 将转录结果保存到文本文件
    text_path = "transcription.txt"
    with open(text_path, "w") as f:
        f.write(transcription)

    return text_path

# 在Colab中上传并处理音频
uploaded = files.upload()
audio_file = list(uploaded.keys())[0]
transcription_file = transcribe_long_audio(audio_file)

# 下载转录文件
files.download(transcription_file)

✨ 主要特性

基于openai/whisper-tiny模型微调，在common_voice_11_0数据集上进行训练。
可以在Colab环境中方便地使用，实现自动语音识别功能。

📦 安装指南

在Colab中运行以下命令安装所需的包：

!pip install torch torchaudio transformers pydub google-colab

📚 详细文档

模型描述

本模型是openai/whisper-tiny在common_voice_11_0数据集上的微调版本。在评估集上的损失为 0.0246。

预期用途与限制

文档未提供相关信息。

训练和评估数据

文档未提供相关信息。

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：0.0001
训练批次大小：8
评估批次大小：8
随机种子：42
梯度累积步数：4
总训练批次大小：32
优化器：使用OptimizerNames.ADAMW_TORCH，betas=(0.9, 0.999)，epsilon=1e-08，无额外优化器参数
学习率调度器类型：线性
学习率调度器热身步数：500
训练轮数：1
混合精度训练：原生AMP

训练结果

训练损失	轮数	步数	验证损失
0.0186	0.9998	2357	0.0246

框架版本

Transformers 4.49.0
Pytorch 2.6.0+cu124
Datasets 3.4.1
Tokenizers 0.21.1

📄 许可证

本模型使用 MIT 许可证。

📋 模型信息表格

属性	详情
模型类型	基于`openai/whisper-tiny`微调的自动语音识别模型
训练数据	`common_voice_11_0`数据集
许可证	MIT
评估指标	字错误率（WER）
任务类型	自动语音识别