whisper-large-v3-turbo开源语音识别模型 - 精准识别希伯来语语音内容

首页

Whisper Large V3 Turbo

由 ivrit-ai 开发

基于OpenAI Whisper Large v3 Turbo模型针对希伯来语进行微调的自动语音识别模型

语音识别

Transformers

其他#希伯来语语音转录 #议会会议记录转写 #众包数据微调

下载量 988

发布时间 : 2/9/2025

模型简介

本模型是专为希伯来语优化的自动语音识别(ASR)模型，适用于希伯来语音频转录场景。

模型特点

希伯来语优化

专门针对希伯来语进行微调，提高希伯来语音频转录准确性

多数据集训练

使用三个不同来源的希伯来语数据集进行训练，覆盖多种语音场景

高效训练

采用混合精度训练和优化超参数，在8卡A40上仅需9小时完成训练

模型能力

希伯来语音频转录

语音识别

使用案例

政府会议记录

以色列议会会议转录

用于转录以色列议会全体会议的希伯来语内容

训练数据中包含约325小时议会会议记录

众包转录

公开音频源转录

用于转录各种公开来源的希伯来语音频

训练数据中包含约300小时众包转录数据

教育应用

维基百科内容朗读转录

用于转录希伯来语维基百科内容的朗读音频

训练数据中包含约50小时众包录音数据

🚀 希伯来语微调语音识别模型

本模型是对OpenAI Whisper Large v3 Turbo模型进行希伯来语微调（持续训练）的成果，可用于希伯来语语音的自动转录。

🚀 快速开始

请参考原始的模型卡片获取使用详情，只需将模型名称替换为本模型。你还可以在ivrit ai的Hugging Face页面上找到其他权重格式和量化方式。

我们创建了一些使用此模型和权重的简单示例脚本，适用于其他推理运行时。可在训练GitHub仓库的"examples"文件夹中找到这些脚本。

✨ 主要特性

语言针对性强：专为希伯来语语音转录而微调，在希伯来语音频处理上表现出色。
多数据集训练：使用多个数据集进行训练，涵盖不同类型的音频数据，提升模型泛化能力。

📦 安装指南

文档未提及具体安装步骤，可参考原始模型的安装方式并替换为本模型。

📚 详细文档

模型详情

模型描述

属性	详情
开发者	ivrit-ai
语言	希伯来语
许可证	Apache - 2.0
微调基础模型	openai/whisper-large-v3-turbo

偏差、风险和限制

⚠️ 重要提示

此模型的语言检测能力在训练过程中有所下降，主要用于希伯来语音频转录，使用时需将语言令牌明确设置为希伯来语。此外，翻译任务未经过训练且能力也有所下降，该模型无法进行合理的翻译。

训练详情

训练数据

本模型在以下数据集上进行训练：

ivrit-ai/crowd-transcribe-v5 - 公开可访问的音频源已逐段进行众包转录，约300小时。
ivrit-ai/crowd-recital-whisper-training - 众包录制的维基百科文章片段，约50小时。
ivrit-ai/knesset-plenums-whisper-training - 以色列议会全会协议的一个子集，约325小时。

训练过程

本模型是两次相同设置运行中最低评估损失检查点（大约在第2个训练周期结束时）的加权平均值。训练代码可在ivrit-ai的Github 此处找到。

预处理

“Crowd Recital”和“Knesset”数据集包含符合Whisper预期输入的时间戳和前文信息。这些数据集中40%的样本使用了时间戳，50%的样本使用了前文信息。

“Crowd Transcribe”数据集没有时间戳或前文信息，此预处理仅包括梅尔频谱特征提取和文本编码。

预处理代码可在训练代码仓库中找到。

数据集以0.15:0.8:0.05的比例（议会:众包转录:众包朗诵）进行交错。

训练超参数

训练机制：使用bf16混合精度和sdpa
学习率：1e - 5，线性衰减，800步热身，训练3个周期
批量大小：32

训练硬件/时长

GPU类型：8 x Nvidia A40机器
时长：约9小时，在3个周期时停止

评估

请参考ivrit-ai/hebrew-transcription-leaderboard

📄 许可证

本模型使用Apache - 2.0许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文