unispeech - sat - base - 100h - libri - ft开源模型 - 精准识别语音助力沟通高效

首页

Unispeech Sat Base 100h Libri Ft

由 microsoft 开发

基于UniSpeech-SAT基础模型，在LibriSpeech语音数据上进行了100小时微调的自动语音识别模型

语音识别

Transformers

英语开源协议:Apache-2.0 #说话人感知语音识别 #多任务自监督学习 #16kHz音频处理

下载量 643

发布时间 : 3/2/2022

模型简介

这是一个专门用于自动语音识别(ASR)的模型，基于微软的UniSpeech-SAT架构，通过自监督学习增强说话人表征能力，适用于英语语音转文本任务

模型特点

说话人感知预训练

通过结合语句级对比损失与SSL目标函数，增强说话人表征学习能力

语句混合数据增强

采用创新的语句混合策略，在训练中无监督生成重叠语句，提升模型区分说话人的能力

大规模预训练

原始模型使用9.4万小时公开音频数据进行预训练，具有强大的泛化能力

模型能力

英语语音识别

说话人特征提取

16kHz采样音频处理

使用案例

语音转文本

语音转录

将英语语音内容转换为文本

在LibriSpeech数据集上表现良好

语音分析

说话人识别

提取语音中的说话人特征

论文显示在SUPERB基准测试中表现优异

🚀 UniSpeech - SAT - Base - 微调 - 100h - Libri

这是一个基于微软的UniSpeech 的语音识别模型。它是在16kHz采样的语音音频上，对 unispeech - sat - base模型在100小时的LibriSpeech数据集上进行微调得到的。使用该模型时，请确保输入的语音也采样为16kHz。

🚀 快速开始

模型信息

属性	详情
模型类型	基于UniSpeech - SAT - Base微调的语音识别模型
训练数据	100小时的 LibriSpeech

模型使用

要对音频文件进行转录，该模型可以作为独立的声学模型使用，示例代码如下：

from transformers import Wav2Vec2Processor, UniSpeechSatForCTC
from datasets import load_dataset
import torch

# 加载模型和分词器
processor = Wav2Vec2Processor.from_pretrained("microsoft/unispeech-sat-base-100h-libri-ft")
model = UniSpeechSatForCTC.from_pretrained("microsoft/unispeech-sat-base-100h-libri-ft")

# 加载虚拟数据集
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# 分词
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values  # 批量大小为1

# 获取对数几率
logits = model(input_values).logits

# 取最大值并解码
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

📚 详细文档

论文信息

论文：UNISPEECH - SAT: UNIVERSAL SPEECH REPRESENTATION LEARNING WITH SPEAKER AWARE PRE - TRAINING

作者：Sanyuan Chen, Yu Wu, Chengyi Wang, Zhengyang Chen, Zhuo Chen, Shujie Liu, Jian Wu, Yao Qian, Furu Wei, Jinyu Li, Xiangzhan Yu

摘要

自监督学习（SSL）是语音处理领域的一个长期目标，因为它利用了大规模的无标签数据，避免了大量的人工标注。近年来，自监督学习在语音识别中的应用取得了巨大成功，但在将SSL应用于说话人特征建模方面的探索有限。在本文中，我们旨在改进现有的用于说话人表示学习的SSL框架。我们引入了两种方法来增强无监督说话人信息提取。首先，我们将多任务学习应用于当前的SSL框架，将基于话语的对比损失与SSL目标函数相结合。其次，为了更好地区分说话人，我们提出了一种用于数据增强的话语混合策略，在训练过程中无监督地创建额外的重叠话语并将其纳入训练。我们将所提出的方法集成到HuBERT框架中。在SUPERB基准测试上的实验结果表明，所提出的系统在通用表示学习方面取得了最先进的性能，特别是在面向说话人识别的任务中。我们进行了消融实验，验证了每个提出方法的有效性。最后，我们将训练数据集扩展到9.4万小时的公共音频数据，并在所有SUPERB任务中进一步提高了性能。