whisper-medium-et开源语音识别模型 - 适用于通用场景的爱沙尼亚语语音识别

首页

Whisper Medium Et

由 TalTechNLP 开发

基于约800小时多样化爱沙尼亚语数据微调的Whisper-medium模型，适用于通用语音识别场景

语音识别

Transformers

#爱沙尼亚语ASR #广播语音识别 #多场景语音转写

下载量 115

发布时间 : 3/20/2023

模型简介

这是由塔林理工大学语言技术实验室训练的通用爱沙尼亚语自动语音识别(ASR)模型，适用于广播对话、访谈、演讲等场景

模型特点

多样化训练数据

基于约800小时多样化爱沙尼亚语数据训练，包括广播语音、即兴对话、老年人语音等多种类型

高性能识别

在Common Voice测试集上取得13.8-14.7的WER表现

通用场景适用

适用于广播对话、访谈、演讲等多种通用语音识别场景

模型能力

爱沙尼亚语语音识别

自动语音转文本

使用案例

媒体与广播

广播内容转录

将爱沙尼亚语广播节目自动转换为文字

会议记录

会议语音转录

将爱沙尼亚语会议内容自动转换为文字记录

🚀 Whisper-medium-et

这是一个基于约800小时多样爱沙尼亚语数据对Whisper-medium模型 openai/whisper-medium 进行微调得到的模型，可用于爱沙尼亚语的自动语音识别任务，为相关语音处理场景提供了有效的解决方案。

🚀 快速开始

可以像使用其他Whisper模型一样，通过HF transformers库来使用该模型，也可以使用像 faster-whisper 这样更快的解码器。

✨ 主要特性

模型描述

这是由塔林理工大学语言技术实验室训练的通用爱沙尼亚语自动语音识别模型。

预期用途与限制

该模型旨在用于通用语音识别，例如广播对话、访谈、演讲等。

局限性和偏差

由于该模型主要基于广播语音和网络文本进行训练，可能在正确解码以下语音时存在问题：

包含技术和其他特定领域术语的语音
儿童语音
非母语人士的语音
在非常嘈杂的环境中录制的语音，或者麦克风离说话者较远时录制的语音
非常自然且存在重叠的语音

📦 安装指南

暂未提供相关安装步骤。

💻 使用示例

基础用法

可以参考以下代码示例来使用该模型：

# 像使用其他Whisper模型一样，通过HF transformers库来使用
from transformers import WhisperForConditionalGeneration, WhisperProcessor

model = WhisperForConditionalGeneration.from_pretrained("TalTechNLP/whisper-medium-et")
processor = WhisperProcessor.from_pretrained("TalTechNLP/whisper-medium-et")

高级用法

若要追求更快的解码速度，可以使用 faster-whisper：

# 使用faster-whisper进行语音识别
import faster_whisper

model = faster_whisper.WhisperModel("TalTechNLP/whisper-medium-et", device="cuda", compute_type="float16")
segments, info = model.transcribe("audio.mp3", beam_size=5)

for segment in segments:
    print(f"[{segment.start:.2f}s - {segment.end:.2f}s] {segment.text}")