whisper-tiny-german开源德语语音识别模型 - 免费部署，适用于边缘场景

首页

Whisper Tiny German

由 primeline 开发

基于whisper-tiny的德语语音识别模型，参数量为3780万，适用于对模型体积敏感的边缘场景。

语音识别

Transformers

德语开源协议:Apache-2.0 #德语语音识别 #轻量化模型 #边缘计算

下载量 198

发布时间 : 4/15/2024

模型简介

专为德语语音识别任务设计的轻量化模型，适用于需小型模型的边缘计算场景，但不建议用于关键任务。

模型特点

轻量化设计

模型体积仅73MB（bfloat16格式），适合边缘设备部署

德语优化

专门针对德语语音识别任务进行训练和优化

多数据源训练

使用Common Voice、多语言LibriSpeech及内部数据进行训练

模型能力

德语语音识别

边缘设备部署

实时语音转文本

使用案例

边缘计算

移动端语音输入

在资源有限的移动设备上实现德语语音输入功能

嵌入式设备语音控制

为智能家居等嵌入式设备提供本地化德语语音控制

🚀 德语版轻量级Whisper模型

本模型是基于 whisper-tiny 的德语语音识别模型。该模型权重包含3780万个参数，在bfloat16格式下大小为73MB。

作为 Whisper large v3 german 的后续项目，我们决定创建一个轻量级版本，以满足对模型大小有严格要求的边缘场景需求。

🚀 快速开始

安装依赖

确保你已经安装了以下库：

Transformers 4.39.3
Pytorch 2.3.0a0+ebedce2
Datasets 2.18.0
Tokenizers 0.15.2

代码示例

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "primeline/whisper-tiny-german"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)
pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)
dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
sample = dataset[0]["audio"]
result = pipe(sample)
print(result["text"])

✨ 主要特性

轻量级设计：模型仅包含3780万个参数，大小为73MB（bfloat16格式），适合对模型大小有严格要求的边缘场景。
德语专用：专门针对德语语音识别任务进行优化。

📚 详细文档

预期用途与限制

本模型旨在用于德语语音识别任务，尤其适用于对模型大小有严格要求的边缘场景。由于这是一个轻量级模型，可能无法在所有场景下都表现出色，因此不建议将其用于关键应用场景。

数据集

训练使用的数据集是 Common Voice 数据集的过滤子集、多语言LibriSpeech以及一些内部数据。数据经过过滤和双重检查，以确保质量和正确性。我们还对文本数据进行了一些归一化处理，特别是大小写和标点符号。

模型家族

属性	详情
模型类型	本模型是基于`whisper-tiny`的德语语音识别模型，属于轻量级模型。
训练数据	训练数据包括 Common Voice 数据集的过滤子集、多语言LibriSpeech以及一些内部数据。

模型	参数数量	链接
Whisper large v3 german	15.4亿	链接
Whisper large v3 turbo german	8.09亿	链接
Distil-whisper large v3 german	7.56亿	链接
tiny whisper	3780万	链接

训练超参数

训练过程中使用了以下超参数：

学习率：3e-05
总训练批次大小：512
训练轮数：5.0

框架版本

Transformers 4.39.3
Pytorch 2.3.0a0+ebedce2
Datasets 2.18.0
Tokenizers 0.15.2

📄 许可证

本模型采用Apache-2.0许可证。

关于我们

您在德国的人工智能基础设施合作伙伴

体验强大的人工智能基础设施，助力您在深度学习、机器学习和高性能计算领域实现目标。

针对人工智能训练和推理进行了优化。

模型作者：Florian Zimmermeister

免责声明

本模型并非primeLine Group的产品。

它是由 [Florian Zimmermeister](https://huggingface.co/flozi00) 进行的研究成果，计算资源由primeLine提供。

该模型由primeLine在此账户下发布，但它并非primeLine Solutions GmbH的商业产品。

请注意，尽管我们已尽最大努力测试和开发此模型，但仍可能出现错误。

使用此模型需自行承担风险。我们不承担因该模型产生的任何错误输出的责任。