开源base_10k_8khz_pt模型 - 支持8kHz，实现精准葡萄牙语自动语音识别

首页

Base 10k 8khz Pt

由 lgris 开发

基于facebook/wav2vec2-base-10k-voxpopuli微调的葡萄牙语自动语音识别模型，支持8kHz采样率

语音识别

Transformers

其他开源协议:Apache-2.0 #巴西葡萄牙语ASR #多源数据集微调 #低采样率适配

下载量 28

发布时间 : 3/2/2022

模型简介

这是一个针对葡萄牙语优化的自动语音识别(ASR)模型，基于Wav2vec 2.0架构，使用多个葡萄牙语语音数据集进行微调。

模型特点

多数据集微调

使用CETUC、Common Voice、Lapsbm等多个葡萄牙语语音数据集进行微调，提高识别准确性

8kHz采样率支持

优化支持8kHz采样率的语音输入，适应更多实际应用场景

巴西葡萄牙语优化

特别针对巴西葡萄牙语变体进行优化，识别效果更好

模型能力

葡萄牙语语音识别

音频转文本

支持8kHz采样率输入

使用案例

语音转录

会议记录自动转录

将葡萄牙语会议录音自动转换为文字记录

语音笔记转换

将葡萄牙语语音笔记转换为可编辑文本

无障碍应用

实时字幕生成

为葡萄牙语视频内容生成实时字幕

🚀 Wav2vec 2.0 用于 8kHz 葡萄牙语

本项目是一个基于 facebook/wav2vec2-base-10k-voxpopuli 微调的模型，旨在处理 8kHz 葡萄牙语语音数据。该模型利用了多个数据集进行微调，为葡萄牙语的自动语音识别任务提供了强大的支持。

✨ 主要特性

多数据集微调：使用了多个不同的数据集进行微调，包括 CETUC、Common Voice 7.0、Lapsbm 等，确保模型在不同场景和语音特征下都有良好的表现。
广泛的应用场景：适用于音频、语音处理等领域，可用于自动语音识别等任务。

📦 安装指南

原文档未提供安装步骤，此章节跳过。

💻 使用示例

原文档未提供代码示例，此章节跳过。

📚 详细文档

微调模型使用的数据集

属性	详情
数据集	本模型使用了以下数据集进行微调：

CETUC：包含约 145 小时的巴西葡萄牙语语音，分布在 50 名男性和 50 名女性说话者中，每人朗读约 1000 个从 CETEN - Folha 语料库中选出的语音平衡句子。
Common Voice 7.0：由 Mozilla 基金会发起的项目，旨在创建多种语言的开放数据集。在该项目中，志愿者通过官方网站捐赠和验证语音数据。
Lapsbm：“Falabrasil - UFPA” 是 Fala Brasil 团队用于巴西葡萄牙语自动语音识别系统基准测试的数据集。包含 35 名说话者（10 名女性），每人朗读 20 个独特的句子，总计 700 条巴西葡萄牙语语音。音频在 22.05 kHz 下录制，未进行环境控制。
Multilingual Librispeech (MLS)：一个多语言的大规模数据集。MLS 基于 LibriVox 等公共领域的有声读物录音。该数据集包含多种语言的总计 6000 小时转录数据。本项目中使用的葡萄牙语数据集（主要是巴西变体）约有 284 小时的语音，来自 62 名说话者朗读的 55 本有声读物。
Multilingual TEDx：一个包含 8 种源语言的 TEDx 演讲音频记录集合。葡萄牙语数据集（主要是巴西葡萄牙语变体）包含 164 小时的转录语音。
Sidney (SID)：包含 72 名说话者（20 名女性）录制的 5777 条语音，说话者年龄从 17 岁到 59 岁，记录了出生地、年龄、性别、教育程度和职业等信息。
VoxForge：一个旨在构建声学模型开放数据集的项目。语料库包含约 100 名说话者和 4130 条巴西葡萄牙语语音，采样率从 16kHz 到 44.1kHz 不等。
VoxPopuli |