ru_whisper_small开源俄语语音识别模型 - 免费部署精准识别俄语语音

首页

Ru Whisper Small

由 Val123val 开发

基于openai/whisper-small微调的俄语语音识别模型，在Sberdevices_golos_10h_crowd数据集上训练

语音识别

Transformers

其他开源协议:Apache-2.0 #俄语语音识别 #小模型微调 #长音频分块处理

下载量 43

发布时间 : 12/28/2023

模型简介

针对俄语优化的语音识别模型，适用于自动语音转录任务

模型特点

俄语优化

专门针对俄语语音数据进行微调，提升俄语识别准确率

长音频处理

支持通过分块算法处理超过30秒的长音频

时间戳预测

可返回语音识别结果的时间戳信息

推测解码支持

可使用辅助模型加速推理过程

模型能力

俄语语音识别

长音频转录

时间戳预测

使用案例

语音转录

俄语会议记录

自动转录俄语会议内容

俄语媒体内容字幕生成

为俄语视频自动生成字幕

🚀 ru_whisper_small - Val123val

本模型是 openai/whisper-small 在 Sberdevices_golos_10h_crowd 数据集上进行微调后的版本，可作为自动语音识别（ASR）解决方案，尤其适用于俄语语音识别。

✨ 主要特性

Whisper 是基于 Transformer 的编解码器模型，也称为序列到序列模型，在 680k 小时的标注语音数据上进行训练，其中俄语数据仅有 5k 小时。
ru_whisper_small 是在 Sberdevices_golos_10h_crowd 数据集上微调的版本，对于开发者来说，可能是一个很有用的 ASR 解决方案，特别是在俄语语音识别方面。如果针对特定业务任务进行微调，还可能展现出额外的能力。

📦 安装指南

文档未提供具体安装步骤，可参考相关库的官方文档进行安装，如 transformers、datasets 等。

💻 使用示例

基础用法

from transformers import WhisperProcessor, WhisperForConditionalGeneration
from datasets import load_dataset

# 加载模型和处理器
processor = WhisperProcessor.from_pretrained("Val123val/ru_whisper_small")
model = WhisperForConditionalGeneration.from_pretrained("Val123val/ru_whisper_small")
model.config.forced_decoder_ids = None

# 加载数据集并读取音频文件
ds = load_dataset("bond005/sberdevices_golos_10h_crowd", split="validation", token=True)
sample = ds[0]["audio"]
input_features = processor(sample["array"], sampling_rate=sample["sampling_rate"], return_tensors="pt").input_features 

# 生成令牌 ID
predicted_ids = model.generate(input_features)
# 将令牌 ID 解码为文本
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=False)

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)

长音频转录

import torch
from transformers import pipeline
from datasets import load_dataset

device = "cuda:0" if torch.cuda.is_available() else "cpu"

pipe = pipeline(
  "automatic-speech-recognition",
  model="Val123val/ru_whisper_small",
  chunk_length_s=30,
  device=device,
)

ds = load_dataset("bond005/sberdevices_golos_10h_crowd", split="validation", token=True)
sample = ds[0]["audio"]

prediction = pipe(sample.copy(), batch_size=8)["text"]

# 也可以返回预测的时间戳
prediction = pipe(sample.copy(), batch_size=8, return_timestamps=True)["chunks"]

基于推测解码的加速使用

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
from transformers import pipeline

device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

# 加载数据集
dataset = load_dataset("bond005/sberdevices_golos_10h_crowd", split="validation", token=True)

# 加载模型
model_id = "Val123val/ru_whisper_small"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id,
    torch_dtype=torch_dtype,
    low_cpu_mem_usage=True,
    use_safetensors=True,
    attn_implementation="sdpa",
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

# 加载辅助模型
assistant_model_id = "openai/whisper-tiny"

assistant_model = AutoModelForSpeechSeq2Seq.from_pretrained(
    assistant_model_id,
    torch_dtype=torch_dtype,
    low_cpu_mem_usage=True,
    use_safetensors=True,
    attn_implementation="sdpa",
)

assistant_model.to(device);

# 创建管道
pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=15,
    batch_size=4,
    generate_kwargs={"assistant_model": assistant_model},
    torch_dtype=torch_dtype,
    device=device,
)

sample = dataset[0]["audio"]
result = pipe(sample)
print(result["text"])

📚 详细文档

训练超参数

训练过程中使用了以下超参数：

属性	详情
学习率	0.0001
训练批次大小	32
评估批次大小	16
随机种子	42
优化器	Adam（betas=(0.9, 0.999)，epsilon=1e-08）
学习率调度器类型	线性
学习率调度器热身步数	500
训练步数	5000