faster-distil-whisper-large-v3.5开源语音识别模型 - 快速完成自动语音识别任务

首页

Faster Distil Whisper Large V3.5

由 Purfview 开发

Distil-Whisper是Whisper模型的蒸馏版本，针对自动语音识别(ASR)任务进行了优化，提供更快的推理速度。

语音识别英语开源协议:MIT #高效语音识别 #多语言支持 #低延迟推理

下载量 565

发布时间 : 4/6/2025

模型简介

这是一个转换为CTranslate2格式的Distil-Large-v3.5模型，专为高效语音识别设计，适用于需要快速转录的应用场景。

模型特点

高效推理

使用CTranslate2引擎实现快速语音识别，比原始Whisper模型更高效

知识蒸馏

通过大规模伪标签技术从Whisper模型中蒸馏知识，保持高准确率

硬件加速

支持GPU加速和不同精度计算(如float16)，优化推理速度

模型能力

英语语音识别

音频转录

支持长音频处理

可调节识别精度

使用案例

语音转录

会议记录

自动转录会议录音

快速生成会议文字记录

播客转录

将播客内容转为文字

便于内容搜索和存档

辅助工具

字幕生成

为视频内容自动生成字幕

提高视频可访问性

🚀 Distil-Whisper: 适用于CTranslate2的Distil-Large-v3.5

Distil-Whisper项目提供了专为CTranslate2优化的语音识别模型，能显著提升推理速度，同时保持较高的识别准确率。它将distil-large-v3.5模型权重转换为CTranslate2格式，借助CTranslate2这一快速推理引擎，为语音识别任务带来高效解决方案。

🚀 快速开始

本项目旨在提供适用于CTranslate2的Distil-Large-v3.5模型权重。CTranslate2是Transformer模型的快速推理引擎，也是Faster-Whisper包支持的后端。

✨ 主要特性

高效推理：借助CTranslate2，实现快速语音识别。
易于集成：可轻松与Faster-Whisper结合使用。

📦 安装指南

要在Faster-Whisper中使用该模型，首先需根据官方说明安装PyPi包。

为了运行示例，我们还将安装🤗 Datasets，以便从Hugging Face Hub加载一个玩具音频数据集：

pip install --upgrade pip
pip install --upgrade git+https://github.com/SYSTRAN/faster-whisper datasets[audio]

💻 使用示例

基础用法

以下代码片段加载distil-large-v3模型，并对LibriSpeech ASR数据集中的一个示例文件进行推理：

import torch
from faster_whisper import WhisperModel
from datasets import load_dataset

# define our torch configuration
device = "cuda" if torch.cuda.is_available() else "cpu"
compute_type = "float16" if torch.cuda.is_available() else "float32"

# load model on GPU if available, else cpu
model = WhisperModel("distil-whisper/distil-large-v3.5-ct2", device=device, compute_type=compute_type)

# load toy dataset for example
dataset = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
sample = dataset[1]["audio"]["path"]

segments, info = model.transcribe(sample, beam_size=5, language="en")

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

高级用法

要转录本地音频文件，只需将音频文件的路径作为audio参数传递给transcribe方法：

segments, info = model.transcribe("audio.mp3", beam_size=5, language="en")

📚 详细文档

有关Distil-Large-v3.5模型的更多信息，请参考原始模型卡片。

📄 许可证

Distil-Whisper继承了OpenAI的Whisper模型的MIT许可证。

📚 引用

如果您使用此模型，请考虑引用Distil-Whisper论文：

@misc{gandhi2023distilwhisper,
      title={Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling}, 
      author={Sanchit Gandhi and Patrick von Platen and Alexander M. Rush},
      year={2023},
      eprint={2311.00430},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}