whisper-large-et开源语音识别模型 - 免费实现爱沙尼亚语准确语音识别

首页

Whisper Large Et

由 TalTechNLP 开发

基于OpenAI Whisper-large-v2微调的爱沙尼亚语语音识别模型，由塔尔图理工大学开发，训练数据约1200小时

语音识别

Transformers

其他#爱沙尼亚语语音识别 #广播语音优化 #多场景ASR

下载量 245

发布时间 : 4/13/2023

模型简介

这是一个通用型爱沙尼亚语自动语音识别(ASR)模型，适用于广播对话、访谈、讲座等多种场景的语音转文字任务

模型特点

高精度爱沙尼亚语识别

在Common Voice测试集上达到WER 11.35-12.03的优异表现

多样化训练数据

使用约1200小时的多样化爱沙尼亚语数据训练，包括广播、演讲、议会记录等

基于Whisper架构

基于业界领先的Whisper-large-v2模型微调，继承其优秀架构特性

模型能力

爱沙尼亚语语音转文字

广播语音识别

讲座内容转录

访谈记录生成

使用案例

媒体内容处理

广播节目转录

将爱沙尼亚语广播节目自动转换为文字稿

WER约12%的高精度转录

访谈记录生成

自动生成访谈对话的文字记录

教育应用

讲座内容转录

将大学讲座内容自动转换为文字

🚀 爱沙尼亚语语音识别模型 Whisper-large-et

本项目是基于爱沙尼亚语数据微调的语音识别模型，能够对广播对话、访谈等通用语音场景进行识别，为爱沙尼亚语的自动语音识别提供了有效的解决方案。

🚀 快速开始

推荐使用 faster-whisper 来使用本模型。

示例步骤：

将HF模型转换为CT2格式：

ct2-transformers-converter --model TalTechNLP/whisper-large-et --output_dir whisper-large-et.ct2  --copy_files tokenizer.json --quantization float16

解码：

whisper-ctranslate2 --model_directory whisper-large-et.ct2 --task transcribe --language et --beam_size 5 some_file.mp3

✨ 主要特性

本模型是基于 openai/whisper-large-v2 在约1200小时的多样化爱沙尼亚语数据上微调得到的通用爱沙尼亚语自动语音识别（ASR）模型。
由塔尔图工业大学语言技术实验室训练。
适用于广播对话、访谈、演讲等通用语音识别场景。

📚 详细文档

模型描述

这是一个在塔尔图工业大学语言技术实验室训练的通用爱沙尼亚语ASR模型。

预期用途和局限性

预期用途

本模型旨在用于通用语音识别，例如广播对话、访谈、演讲等。

局限性和偏差

由于该模型主要在广播语音和网络文本上进行训练，可能在正确解码以下语音时存在问题：

包含技术和其他特定领域术语的语音。
儿童语音。
非母语语音。
在非常嘈杂的环境中录制的语音，或者麦克风离说话者较远的语音。
非常自然且有重叠的语音。

训练数据

声学训练数据如下：

类型	时长（小时）
广播语音	991
自然语音	53
老年人语音语料库	53
讲座、演讲	49
议会演讲	31
总计	1161

训练过程

使用Espnet进行微调，然后使用此脚本将其转换为transformers格式。微调过程与此模型类似。微调进行了3个epoch，并在训练结束时进行了模型平均。

更新：2023年10月3日版本的模型在长片段上进行训练（与原始Whisper模型类似），因此特别适合与 faster-whisper 一起使用，以“端到端”方式转录长语音记录（即无需任何预先分割）。

评估结果

词错误率（WER）

以下WER结果是使用贪心解码（即束搜索大小为1）获得的。

数据集	WER
Common Voice 8.0	11.3
Common Voice 11.0	12.0

📄 许可证

本模型采用CC BY 4.0许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文