wav2vec2-xlsr-Basaa开源自动语音识别模型

首页

Wav2vec2 Xlsr Basaa

由 sammy786 开发

该模型是基于facebook/wav2vec2-xls-r-1b在Common Voice 8巴萨语数据集上微调得到的自动语音识别模型。

语音识别

Transformers

其他开源协议:Apache-2.0 #巴萨语语音识别 #多方言支持 #低资源优化

下载量 20

发布时间 : 3/2/2022

模型简介

这是一个用于巴萨语自动语音识别的模型，基于wav2vec2-xls-r-1b架构微调，在Common Voice 8数据集上训练。

模型特点

高性能巴萨语识别

在Common Voice 8巴萨语数据集上微调，词错误率(WER)41.23，字符错误率(CER)13.54

基于大规模预训练模型

基于facebook/wav2vec2-xls-r-1b模型微调，继承了其强大的语音特征提取能力

鲁棒语音处理

能够处理对话场景和不同语音质量的输入

模型能力

巴萨语语音识别

自动语音转文本

处理对话语音

使用案例

语音转写

巴萨语语音转录

将巴萨语语音内容转换为文本

词错误率41.23%，字符错误率13.54%

语音助手

巴萨语语音交互

用于开发巴萨语语音助手和对话系统

🚀 sammy786/wav2vec2-xlsr-basaa

本模型是 facebook/wav2vec2-xls-r-1b 在 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - bas 数据集上的微调版本。它在评估集（训练数据集的 10% 与其他数据集和开发数据集合并而成）上取得了以下结果：

损失值：21.39
词错误率（Wer）：30.99

✨ 主要特性

基于预训练模型 facebook/wav2vec2-xls-r-1b 进行微调，适用于自动语音识别任务。
在 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - bas 数据集上进行训练和评估。

📦 安装指南

文档未提供安装步骤，故跳过此章节。

💻 使用示例

文档未提供代码示例，故跳过此章节。

📚 详细文档

模型描述

对 "facebook/wav2vec2-xls-r-1b" 进行了微调。

预期用途与限制

需要更多相关信息。

训练和评估数据

训练数据为 Common voice Finnish 的 train.tsv、dev.tsv 和 other.tsv 文件。

训练过程

为创建训练数据集，将所有可能的数据集进行合并，并采用 90 - 10 的分割比例。

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）：0.000045637994662983496
训练批次大小（train_batch_size）：16
评估批次大小（eval_batch_size）：16
随机种子（seed）：13
梯度累积步数（gradient_accumulation_steps）：2
总训练批次大小（total_train_batch_size）：32
优化器（optimizer）：Adam，β1 = 0.9，β2 = 0.999，ε = 1e-08
学习率调度器类型（lr_scheduler_type）：cosine_with_restarts
学习率调度器热身步数（lr_scheduler_warmup_steps）：500
训练轮数（num_epochs）：70
混合精度训练（mixed_precision_training）：Native AMP

训练结果

步数	训练损失	验证损失	词错误率（Wer）
200	6.734100	1.605006	0.980456
400	1.011200	0.364686	0.442997
600	0.709300	0.300204	0.377850
800	0.469800	0.315612	0.405537
1000	0.464700	0.352494	0.372964
1200	0.421900	0.342533	0.368078
1400	0.401900	0.351398	0.343648
1600	0.429800	0.350570	0.348534
1800	0.352600	0.356601	0.358306
2000	0.387200	0.355814	0.356678
2200	0.362400	0.345573	0.355049

框架版本

Transformers：4.16.0.dev0
Pytorch：1.10.0+cu102
Datasets：1.17.1.dev0
Tokenizers：0.10.3

评估命令

在 mozilla-foundation/common_voice_8_0 数据集的 test 分割上进行评估：

python eval.py --model_id sammy786/wav2vec2-xlsr-basaa --dataset mozilla-foundation/common_voice_8_0 --config bas --split test

🔧 技术细节

文档未提供足够详细的技术实现细节，故跳过此章节。

📄 许可证

本项目采用 Apache-2.0 许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文