许可协议: MIT
标签:
- 音频
- 自动语音识别
数据集:
- librispeech_asr
SpeechT5 (语音识别任务)
基于LibriSpeech数据集微调的SpeechT5自动语音识别(语音转文本)模型。
该模型由Junyi Ao、Rui Wang、Long Zhou等人在论文《SpeechT5: 面向口语处理的统一模态编码器-解码器预训练框架》中提出,首次发布于此代码库,原始权重采用MIT许可证。
免责声明:SpeechT5团队未编写此模型卡片,当前内容由Hugging Face团队撰写。
模型描述
受T5(文本到文本迁移转换器)在自然语言处理预训练中的成功启发,我们提出统一模态的SpeechT5框架,通过编码器-解码器预训练探索语音/文本的自监督表示学习。该框架包含共享的编码器-解码器网络和六个模态专用(语音/文本)的前后处理网络。输入语音/文本经预处理网络处理后,共享编码器-解码器网络建模序列到序列的转换,后处理网络根据解码器输出生成目标模态的语音/文本结果。
利用大规模无标注语音和文本数据,我们预训练SpeechT5学习统一模态表示,以提升语音和文本的联合建模能力。为实现文本与语音信息在统一语义空间的对齐,我们提出跨模态向量量化方法,通过随机混合语音/文本状态与潜在单元作为编码器-解码器间的接口。
大量实验表明,SpeechT5框架在自动语音识别、语音合成、语音翻译、语音转换、语音增强和说话人识别等多样化口语处理任务中均具优越性。
使用场景与限制
本模型可用于自动语音识别任务。访问模型中心可查看针对特定任务的微调版本。
当前特征提取器与模型仅支持PyTorch。
引用
BibTeX:
@inproceedings{ao-etal-2022-speecht5,
title = {{S}peech{T}5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing},
author = {Ao, Junyi and Wang, Rui and Zhou, Long and Wang, Chengyi and Ren, Shuo and Wu, Yu and Liu, Shujie and Ko, Tom and Li, Qing and Zhang, Yu and Wei, Zhihua and Qian, Yao and Li, Jinyu and Wei, Furu},
booktitle = {Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)},
month = {May},
year = {2022},
pages={5723--5738},
}
快速开始
以下代码演示如何将16kHz单声道语音波形转换为文本:
from transformers import SpeechT5Processor, SpeechT5ForSpeechToText
from datasets import load_dataset
dataset = load_dataset("hf-internal-testing/librispeech_asr_demo", "clean", split="validation")
dataset = dataset.sort("id")
sampling_rate = dataset.features["audio"].sampling_rate
example_speech = dataset[0]["audio"]["array"]
processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_asr")
model = SpeechT5ForSpeechToText.from_pretrained("microsoft/speecht5_asr")
inputs = processor(audio=example_speech, sampling_rate=sampling_rate, return_tensors="pt")
predicted_ids = model.generate(**inputs, max_length=100)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription[0])