whisper-large-v2-cv11-german开源ASR模型，免费将德语语音精准转为文字！

首页

Whisper Large V2 Cv11 German

由 bofenghuang 开发

基于openai/whisper-large-v2在Common Voice 11.0德语数据集上微调的自动语音识别模型，支持德语语音转文字，词错误率5.76

语音识别

Transformers

德语开源协议:Apache-2.0 #德语语音识别 #低WER(5.76)#标点预测

下载量 179

发布时间 : 12/18/2022

模型简介

本模型是基于whisper-large-v2在德语数据集上微调的版本，专门用于德语自动语音识别任务，能够预测大小写和标点符号。

模型特点

低词错误率

在Common Voice 11.0德语测试集上达到5.76的WER，性能优于同系列其他规模模型

标点符号预测

能够自动预测大小写和标点符号，提高转录文本的可读性

16kHz采样率支持

专为16kHz采样率的语音输入优化

模型能力

德语语音识别

语音转文字

标点符号预测

使用案例

语音转录

德语会议记录

将德语会议录音自动转录为文字记录

高准确率的转录文本，包含标点符号

德语媒体字幕生成

为德语视频或播客自动生成字幕

准确的时间对齐字幕

语音助手

德语语音指令识别

在德语语音助手中识别用户指令

高准确率的指令识别

🚀 用于德语自动语音识别的微调版whisper-large-v2模型

本模型是 openai/whisper-large-v2 的微调版本，在 mozilla-foundation/common_voice_11_0 德语数据集上进行了训练。使用该模型时，请确保语音输入的采样率为 16Khz。该模型还可以预测大小写和标点符号。

📄 许可证

本项目采用 Apache-2.0 许可证。

📊 模型信息

属性	详情
模型类型	用于自动语音识别的微调版 whisper-large-v2 模型
训练数据	mozilla-foundation/common_voice_11_0 德语数据集
模型架构	seq2seq
模型参数	1550M
支持语言	德语

✨ 主要特性

基于 openai/whisper-large-v2 进行微调，针对德语自动语音识别任务进行了优化。
能够预测语音中的大小写和标点符号，提供更自然的文本输出。

📈 性能表现

预训练模型在 Common Voice 9.0 上的词错误率（WER）

模型	Common Voice 9.0 WER
openai/whisper-small	13.0
openai/whisper-medium	8.5
openai/whisper-large-v2	6.4

微调模型在 Common Voice 11.0 上的词错误率（WER）

模型	Common Voice 11.0 WER
bofenghuang/whisper-small-cv11-german	11.35
bofenghuang/whisper-medium-cv11-german	7.05
bofenghuang/whisper-large-v2-cv11-german	5.76

💻 使用示例

基础用法

使用 🤗 Pipeline 进行推理

import torch

from datasets import load_dataset
from transformers import pipeline

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

# Load pipeline
pipe = pipeline("automatic-speech-recognition", model="bofenghuang/whisper-large-v2-cv11-german", device=device)

# NB: set forced_decoder_ids for generation utils
pipe.model.config.forced_decoder_ids = pipe.tokenizer.get_decoder_prompt_ids(language="de", task="transcribe")

# Load data
ds_mcv_test = load_dataset("mozilla-foundation/common_voice_11_0", "de", split="test", streaming=True)
test_segment = next(iter(ds_mcv_test))
waveform = test_segment["audio"]

# NB: decoding option
# limit the maximum number of generated tokens to 225
pipe.model.config.max_length = 225 + 1
# sampling
# pipe.model.config.do_sample = True
# beam search
# pipe.model.config.num_beams = 5
# return
# pipe.model.config.return_dict_in_generate = True
# pipe.model.config.output_scores = True
# pipe.model.config.num_return_sequences = 5

# Run
generated_sentences = pipe(waveform)["text"]

高级用法

使用 🤗 底层 API 进行推理

import torch
import torchaudio

from datasets import load_dataset
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

# Load model
model = AutoModelForSpeechSeq2Seq.from_pretrained("bofenghuang/whisper-large-v2-cv11-german").to(device)
processor = AutoProcessor.from_pretrained("bofenghuang/whisper-large-v2-cv11-german", language="german", task="transcribe")

# NB: set forced_decoder_ids for generation utils
model.config.forced_decoder_ids = processor.get_decoder_prompt_ids(language="de", task="transcribe")

# 16_000
model_sample_rate = processor.feature_extractor.sampling_rate

# Load data
ds_mcv_test = load_dataset("mozilla-foundation/common_voice_11_0", "de", split="test", streaming=True)
test_segment = next(iter(ds_mcv_test))
waveform = torch.from_numpy(test_segment["audio"]["array"])
sample_rate = test_segment["audio"]["sampling_rate"]

# Resample
if sample_rate != model_sample_rate:
    resampler = torchaudio.transforms.Resample(sample_rate, model_sample_rate)
    waveform = resampler(waveform)

# Get feat
inputs = processor(waveform, sampling_rate=model_sample_rate, return_tensors="pt")
input_features = inputs.input_features
input_features = input_features.to(device)

# Generate
generated_ids = model.generate(inputs=input_features, max_new_tokens=225)  # greedy
# generated_ids = model.generate(inputs=input_features, max_new_tokens=225, num_beams=5)  # beam search

# Detokenize
generated_sentences = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

# Normalise predicted sentences if necessary