whisper-large-v2-pl-v2开源语音识别模型 - 免费实现波兰语语音精准转文本

首页

Whisper Large V2 Pl V2

由 bardsai 开发

基于Whisper Large v2在波兰语数据集上微调的自动语音识别模型，支持波兰语语音转文本任务。

语音识别

Transformers

其他#波兰语语音识别 #低词错误率 #多数据集微调

下载量 217

发布时间 : 12/14/2022

模型简介

这是一个专门针对波兰语优化的自动语音识别(ASR)模型，在Common Voice 11.0和FLEURS数据集上进行了微调，能够准确地将波兰语语音转换为文本。

模型特点

高精度波兰语识别

在Common Voice 11.0测试集上达到7.28%的词错误率(WER)，表现优异

多数据集训练

使用Common Voice 11.0和FLEURS两个高质量波兰语数据集进行训练

优化的训练流程

采用精心设计的训练超参数和梯度累积策略，确保训练效果

模型能力

波兰语语音识别

语音转文本

自动语音转录

使用案例

语音转录

会议记录自动化

将波兰语会议录音自动转换为文字记录

高准确率的转录文本

媒体字幕生成

为波兰语视频内容自动生成字幕

低错误率的字幕输出

语音助手

波兰语语音指令识别

用于波兰语语音助手系统中的指令理解

高准确率的指令识别

🚀 Whisper Large v2 PL

本模型是基于 bardsai/whisper-large-v2-pl 在 Common Voice 11.0 和 FLEURS 数据集上进行微调的版本。它在评估集上取得了以下成果：

损失率：0.3684
字错率（Wer）：7.2802

✨ 主要特性

基于 Whisper Large v2 进行微调，在波兰语语音识别任务上表现出色。
在多个公开数据集上进行了评估，具有良好的泛化能力。

📚 详细文档

模型信息

属性	详情
语言	波兰语（pl）
标签	whisper-event、generated_from_trainer
数据集	mozilla-foundation/common_voice_11_0、google/fleurs
评估指标	字错率（wer）

评估结果

模型在不同数据集上的评估结果如下：

Common Voice 11.0

任务类型：自动语音识别
评估指标：
- 损失率：0.3684
- 字错率（Wer）：7.2802
- 未归一化字错率（WER unnormalized）：20.18
- 字符错误率（CER）：2.08
- 匹配错误率（MER）：7.27

facebook/voxpopuli

任务类型：自动语音识别
评估指标：
- 字错率（Wer）：9.61
- 未归一化字错率（WER unnormalized）：30.33
- 字符错误率（CER）：5.5
- 匹配错误率（MER）：9.45

google/fleurs

任务类型：自动语音识别
评估指标：
- 字错率（Wer）：8.68
- 未归一化字错率（WER unnormalized）：29.33
- 字符错误率（CER）：3.63
- 匹配错误率（MER）：8.62

🔧 技术细节

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）：1e-05
训练批次大小（train_batch_size）：8
评估批次大小（eval_batch_size）：4
随机种子（seed）：42
梯度累积步数（gradient_accumulation_steps）：8
总训练批次大小（total_train_batch_size）：64
优化器（optimizer）：Adam（betas=(0.9,0.999)，epsilon=1e-08）
学习率调度器类型（lr_scheduler_type）：线性
学习率调度器热身步数（lr_scheduler_warmup_steps）：500
训练步数（training_steps）：2100
混合精度训练（mixed_precision_training）：Native AMP

训练结果

训练损失	轮数	步数	验证损失	字错率（Wer）
0.0047	1.35	700	0.3428	8.5562
0.0011	2.7	1400	0.3605	7.5505
0.0003	4.05	2100	0.3684	7.2802

框架版本

Transformers 4.26.0.dev0
Pytorch 1.13.0+cu117
Datasets 2.7.1.dev0
Tokenizers 0.13.2

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文