wav2vec2-xlsr-1b-finnish开源模型 - 免费助力芬兰语自动语音识别应用

首页

Wav2vec2 Xlsr 1b Finnish

由 aapot 开发

基于Facebook的wav2vec2-xls-r-1b模型针对芬兰语自动语音识别(ASR)进行微调的版本，使用259.57小时芬兰语标注语音数据训练

语音识别

Transformers

其他开源协议:Apache-2.0 #芬兰语语音识别 #XLS-R大模型 #议会场景优化

下载量 18

发布时间 : 3/2/2022

模型简介

这是一个针对芬兰语优化的自动语音识别模型，适用于将芬兰语语音转换为文本。

模型特点

大规模预训练基础

基于43.6万小时多语言语音数据预训练的wav2vec2-xls-r-1b模型

芬兰语优化

使用259.57小时芬兰语标注数据专门微调

高效训练

使用8-bit Adam优化器和混合精度训练

语言模型支持

提供结合KenLM语言模型的改进版本

模型能力

芬兰语语音识别

短音频转录(最长20秒)

语音转文本

使用案例

语音转录

会议记录转录

将芬兰议会会议等正式场合的语音转换为文本

在议会数据集上表现良好

语音助手

为芬兰语语音助手提供语音识别能力

语音分析

语音内容分析

分析芬兰语广播或播客内容

🚀 用于芬兰语自动语音识别的Wav2Vec2 XLS - R

本声学模型是 facebook/wav2vec2-xls-r-1b 针对芬兰语自动语音识别（ASR）任务的微调版本。该模型使用了259.57小时的芬兰语转录语音数据进行微调。Wav2Vec2 XLS - R 首次在这篇论文中被提出，并在此页面首次发布。

注意：有一个在解码阶段使用了KenLM语言模型的版本，能够生成更好的转录结果：Finnish - NLP/wav2vec2-xlsr-1b-finnish-lm

注意：此模型有一个更好的V2版本，它使用了额外16小时的数据进行了更长时间的微调：Finnish - NLP/wav2vec2-xlsr-1b-finnish-lm-v2

✨ 主要特性

基于预训练的facebook/wav2vec2-xls-r-1b模型，针对芬兰语自动语音识别任务进行了微调。
使用了259.57小时的芬兰语转录语音数据进行训练。
提供了使用KenLM语言模型的版本和V2版本，性能更优。

📦 安装指南

文档中未提及安装步骤，故跳过此章节。

💻 使用示例

文档中未提供代码示例，故跳过此章节。

📚 详细文档

模型描述

Wav2Vec2 XLS - R 是Facebook AI开发的大规模多语言语音预训练模型。它在436000小时的无标签语音数据（包括VoxPopuli、MLS、CommonVoice、BABEL和VoxLingua107）上进行了预训练，使用了wav2vec 2.0目标函数，支持128种语言。

你可以从这篇博客和这篇论文中了解更多关于该预训练模型的信息。

此模型是预训练模型（10亿参数变体）针对芬兰语自动语音识别任务的微调版本。

预期用途与限制

你可以将此模型用于芬兰语自动语音识别（语音转文本）任务。

使用方法

查看此仓库中的 run - finnish - asr - models.ipynb 笔记本，以获取如何使用此模型的详细示例。

限制和偏差

此模型使用的音频样本最大长度为20秒，因此它最适合处理类似长度的较短音频。不过，你也可以尝试使用更长的音频，看看效果如何。如果你在处理非常长的音频文件时遇到内存不足的错误，可以使用这篇博客文章中介绍的音频分块方法。
用于微调的大部分数据来自芬兰议会数据集，因此该模型在处理与该数据集差异较大的领域（如带有方言的日常芬兰语口语）时，泛化能力可能不佳。此外，数据集中的音频往往以成年男性为主，因此该模型在处理儿童和女性的语音时可能效果不佳。

训练数据

此模型使用了来自以下数据集的259.57小时芬兰语转录语音数据进行微调：

数据集	时长	占总时长的百分比
Common Voice 7.0芬兰语训练集 + 评估集 + 其他分割集	9.70小时	3.74 %
芬兰议会会议2	0.24小时	0.09 %
VoxPopuli芬兰语	5.94小时	2.29 %
CSS10芬兰语	10.32小时	3.98 %
阿尔托大学芬兰议会ASR语料库	228.00小时	87.84 %
芬兰广播语料库	5.37小时	2.07 %

数据集经过筛选，只包含最长20秒的音频样本。

训练过程

此模型是在Hugging Face组织的稳健语音挑战活动期间进行训练的。训练在由OVHcloud赞助的Tesla V100 GPU上完成。

训练脚本由Hugging Face提供，可在此处获取。我们仅对其数据加载部分进行了修改，以适应我们的自定义数据集。

训练超参数

训练期间使用了以下超参数：

学习率：5e - 05
训练批次大小：32
评估批次大小：8
随机种子：42
优化器：8位Adam，β1 = 0.9，β2 = 0.999，ε = 1e - 08
学习率调度器类型：线性
学习率调度器热身步数：500
训练轮数：5
混合精度训练：原生自动混合精度（Native AMP）

预训练的facebook/wav2vec2-xls-r-1b模型使用以下超参数进行初始化：

注意力丢弃率：0.094
隐藏层丢弃率：0.047
特征投影丢弃率：0.04
时间掩码概率：0.082
层丢弃率：0.041
激活丢弃率：0.055
CTC损失缩减方式："mean"

训练结果

训练损失	轮数	步数	验证损失	词错误率（WER）
0.968	0.18	500	0.4870	0.4720
0.6557	0.36	1000	0.2450	0.2931
0.647	0.54	1500	0.1818	0.2255
0.5297	0.72	2000	0.1698	0.2354
0.5802	0.9	2500	0.1581	0.2355
0.6351	1.07	3000	0.1689	0.2336
0.4626	1.25	3500	0.1719	0.3099
0.4526	1.43	4000	0.1434	0.2069
0.4692	1.61	4500	0.1645	0.2192
0.4584	1.79	5000	0.1483	0.1987
0.4234	1.97	5500	0.1499	0.2178
0.4243	2.15	6000	0.1345	0.2070
0.4108	2.33	6500	0.1383	0.1850
0.4048	2.51	7000	0.1338	0.1811
0.4085	2.69	7500	0.1290	0.1780
0.4026	2.87	8000	0.1239	0.1650
0.4033	3.04	8500	0.1346	0.1657
0.3986	3.22	9000	0.1310	0.1850
0.3867	3.4	9500	0.1273	0.1741
0.3658	3.58	10000	0.1219	0.1672
0.382	3.76	10500	0.1306	0.1698
0.3847	3.94	11000	0.1230	0.1577
0.3691	4.12	11500	0.1310	0.1615
0.3593	4.3	12000	0.1296	0.1622
0.3619	4.48	12500	0.1285	0.1601
0.3361	4.66	13000	0.1261	0.1569
0.3603	4.84	13500	0.1235	0.1533

框架版本

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.3
Tokenizers 0.11.0

评估结果

使用 Common Voice 7.0芬兰语测试集进行评估。

要评估此模型，请运行此仓库中的eval.py脚本：

python3 eval.py --model_id aapot/wav2vec2-xlsr-1b-finnish --dataset mozilla-foundation/common_voice_7_0 --config fi --split test

与我们的其他模型相比，此模型（表格中的第二行）在词错误率（WER）和字符错误率（CER）方面取得了以下结果：

模型	带语言模型的WER	不带语言模型的WER	带语言模型的CER	不带语言模型的CER
aapot/wav2vec2-xlsr-1b-finnish-lm-v2	4.09	9.73	0.88	1.65
aapot/wav2vec2-xlsr-1b-finnish-lm	5.65	13.11	1.20	2.23
aapot/wav2vec2-xlsr-300m-finnish-lm	8.16	17.92	1.97	3.36