模型简介
模型特点
模型能力
使用案例
许可证: cc-by-4.0 语言:
- 英语 管道标签: 自动语音识别 库名称: nemo 数据集:
- librispeech_asr
- fisher_corpus
- mozilla-foundation/common_voice_8_0
- 新加坡国家语料库第一部分
- vctk
- voxpopuli
- 欧洲议会语料库
- 多语言LibriSpeech 缩略图: 无 标签:
- 自动语音识别
- 语音
- 音频
- 转换器
- TDT
- FastConformer
- Conformer
- pytorch
- NeMo
- hf-asr-leaderboard 小部件:
- 示例标题: Librispeech样本1 来源: https://cdn-media.huggingface.co/speech_samples/sample1.flac
- 示例标题: Librispeech样本2 来源: https://cdn-media.huggingface.co/speech_samples/sample2.flac 模型索引:
- 名称: parakeet-tdt-0.6b-v2
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: AMI(会议测试)
类型: edinburghcstr/ami
配置: ihm
分割: 测试
参数:
语言: 英语
指标:
- 名称: 测试WER 类型: wer 值: 11.16
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Earnings-22
类型: revdotcom/earnings22
分割: 测试
参数:
语言: 英语
指标:
- 名称: 测试WER 类型: wer 值: 11.15
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: GigaSpeech
类型: speechcolab/gigaspeech
分割: 测试
参数:
语言: 英语
指标:
- 名称: 测试WER 类型: wer 值: 9.74
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: LibriSpeech(清晰)
类型: librispeech_asr
配置: 其他
分割: 测试
参数:
语言: 英语
指标:
- 名称: 测试WER 类型: wer 值: 1.69
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: LibriSpeech(其他)
类型: librispeech_asr
配置: 其他
分割: 测试
参数:
语言: 英语
指标:
- 名称: 测试WER 类型: wer 值: 3.19
- 任务:
类型: 自动语音识别
名称: automatic-speech-recognition
数据集:
名称: SPGI语音
类型: kensho/spgispeech
配置: 测试
分割: 测试
参数:
语言: 英语
指标:
- 名称: 测试WER 类型: wer 值: 2.17
- 任务:
类型: 自动语音识别
名称: automatic-speech-recognition
数据集:
名称: tedlium-v3
类型: LIUM/tedlium
配置: 发布1
分割: 测试
参数:
语言: 英语
指标:
- 名称: 测试WER 类型: wer 值: 3.38
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Vox Populi
类型: facebook/voxpopuli
配置: 英语
分割: 测试
参数:
语言: 英语
指标:
- 名称: 测试WER 类型: wer 值: 5.95 指标:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: AMI(会议测试)
类型: edinburghcstr/ami
配置: ihm
分割: 测试
参数:
语言: 英语
指标:
- wer
Parakeet TDT 0.6B V2 (英语)
描述:
parakeet-tdt-0.6b-v2
是一个6亿参数的自动语音识别(ASR)模型,专为高质量的英语转录设计,支持标点符号、大小写和准确的时间戳预测。在此尝试演示: https://huggingface.co/spaces/nvidia/parakeet-tdt-0.6b-v2
这个FastConformer[1]架构的XL变体集成了TDT[2]解码器,并使用全注意力训练,能够高效地单次转录长达24分钟的音频片段。在HF-Open-ASR排行榜上,该模型在批量大小为128时实现了3380的RTFx性能。注意: RTFx性能可能因数据集音频时长和批量大小而异。
主要特点
- 准确的词级时间戳预测
- 自动标点符号和大小写
- 在口语数字和歌词转录方面表现稳健
该模型可用于商业/非商业用途。
许可证/使用条款:
管理条款: 使用本模型受CC-BY-4.0许可证约束。
部署地理范围:
全球
使用场景:
本模型服务于开发人员、研究人员、学术界和行业,用于构建需要语音转文本功能的应用程序,包括但不限于: 对话式AI、语音助手、转录服务、字幕生成和语音分析平台。
发布日期:
2025年5月1日
模型架构:
架构类型:
FastConformer-TDT
网络架构:
- 本模型基于FastConformer编码器架构[1]和TDT解码器[2]开发
- 本模型拥有6亿参数。
输入:
- 输入类型: 16kHz音频
- 输入格式:
.wav
和.flac
音频格式 - 输入参数: 1D(音频信号)
- 其他输入相关属性: 单声道音频
输出:
- 输出类型: 文本
- 输出格式: 字符串
- 输出参数: 1D(文本)
- 其他输出相关属性: 包含标点符号和大小写。
我们的AI模型设计并优化以在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件(如GPU核心)和软件框架(如CUDA库),与仅使用CPU的解决方案相比,模型实现了更快的训练和推理时间。
如何使用本模型:
要训练、微调或使用模型,您需要安装NVIDIA NeMo。我们建议在安装最新版本的PyTorch后安装它。
pip install -U nemo_toolkit["asr"]
该模型可在NeMo工具包[3]中使用,并可作为预训练检查点用于推理或对其他数据集进行微调。
自动实例化模型
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")
使用Python转录
首先,获取一个样本
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav
然后简单执行:
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)
带时间戳的转录
要带时间戳转录:
output = asr_model.transcribe(['2086-149220-0033.wav'], timestamps=True)
# 默认情况下,时间戳在字符、词和段落级别启用
word_timestamps = output[0].timestamp['word'] # 第一个样本的词级时间戳
segment_timestamps = output[0].timestamp['segment'] # 段落级时间戳
char_timestamps = output[0].timestamp['char'] # 字符级时间戳
for stamp in segment_timestamps:
print(f"{stamp['start']}s - {stamp['end']}s : {stamp['segment']}")
软件集成:
运行时引擎:
- NeMo 2.2
支持的硬件微架构兼容性:
- NVIDIA安培
- NVIDIA布莱克威尔
- NVIDIA霍珀
- NVIDIA伏特
[首选/支持]操作系统:
- Linux
硬件特定要求:
至少2GB RAM以加载模型。RAM越大,支持的音频输入越长。
模型版本
当前版本: parakeet-tdt-0.6b-v2。以前的版本可以在此访问。
训练和评估数据集:
训练
本模型使用NeMo工具包[3]训练,遵循以下策略:
- 从在LibriLight数据集[7]上使用wav2vec方法预训练的FastConformer SSL检查点初始化。
- 在64个A100 GPU上训练150,000步。
- 使用温度采样值0.5平衡数据集语料库。
- 在4个A100 GPU上使用约500小时高质量的NeMo ASR Set 3.0人工转录数据进行2,500步的第二阶段微调。
分词器使用此脚本从训练集转录本构建。
训练数据集
模型在Granary数据集上训练,包含约120,000小时的英语语音数据:
-
来自人工转录的NeMo ASR Set 3.0的10,000小时,包括:
- LibriSpeech(960小时)
- Fisher语料库
- 新加坡国家语料库第一部分
- VCTK
- VoxPopuli(英语)
- Europarl-ASR(英语)
- 多语言LibriSpeech(MLS英语) – 2,000小时子集
- Mozilla Common Voice(v7.0)
- AMI
-
来自以下伪标签数据的110,000小时:
- YTC(YouTube-Commons)数据集[4]
- YODAS数据集[5]
- Librilight[7]
所有转录保留标点符号和大小写。Granary数据集将在2025年Interspeech会议后公开。
数据集的数据收集方法
- 混合: 自动化, 人工
数据集的标注方法
- 混合: 合成, 人工
属性:
- 来自各种来源的噪声鲁棒数据
- 单声道, 16kHz采样数据
评估数据集
Huggingface Open ASR排行榜数据集用于评估本模型的性能。
数据集的数据收集方法
- 人工
数据集的标注方法
- 人工
属性:
- 所有数据集通常用于英语ASR系统的基准测试。
- 音频数据通常处理为16kHz单声道格式以进行ASR评估,与Open ASR排行榜等基准一致。
性能
Huggingface Open-ASR-Leaderboard性能
自动语音识别(ASR)模型的性能使用词错误率(WER)衡量。由于本模型在跨多个领域的大规模多样化数据集上训练,通常在各种类型的音频上更稳健和准确。
基础性能
下表总结了使用贪婪解码(无外部语言模型)的转换器解码器的WER(%):
模型 | 平均WER | AMI | Earnings-22 | GigaSpeech | LS测试-清晰 | LS测试-其他 | SPGI语音 | TEDLIUM-v3 | VoxPopuli |
---|---|---|---|---|---|---|---|---|---|
parakeet-tdt-0.6b-v2 | 6.05 | 11.16 | 11.15 | 9.74 | 1.69 | 3.19 | 2.17 | 3.38 | 5.95 |
噪声鲁棒性
使用MUSAN音乐和噪声样本在不同信噪比(SNR)下的性能:
SNR级别 | 平均WER | AMI | Earnings | GigaSpeech | LS测试-清晰 | LS测试-其他 | SPGI | Tedlium | VoxPopuli | 相对变化 |
---|---|---|---|---|---|---|---|---|---|---|
纯净 | 6.05 | 11.16 | 11.15 | 9.74 | 1.69 | 3.19 | 2.17 | 3.38 | 5.95 | - |
SNR 50 | 6.04 | 11.11 | 11.12 | 9.74 | 1.70 | 3.18 | 2.18 | 3.34 | 5.98 | +0.25% |
SNR 25 | 6.50 | 12.76 | 11.50 | 9.98 | 1.78 | 3.63 | 2.54 | 3.46 | 6.34 | -7.04% |
SNR 5 | 8.39 | 19.33 | 13.83 | 11.28 | 2.36 | 5.50 | 3.91 | 3.91 | 6.96 | -38.11% |
电话音频性能
标准16kHz音频与电话风格音频(使用μ-law编码,16kHz→8kHz→16kHz转换)的性能比较:
音频格式 | 平均WER | AMI | Earnings | GigaSpeech | LS测试-清晰 | LS测试-其他 | SPGI | Tedlium | VoxPopuli | 相对变化 |
---|---|---|---|---|---|---|---|---|---|---|
标准16kHz | 6.05 | 11.16 | 11.15 | 9.74 | 1.69 | 3.19 | 2.17 | 3.38 | 5.95 | - |
μ-law 8kHz | 6.32 | 11.98 | 11.16 | 10.02 | 1.78 | 3.52 | 2.20 | 3.38 | 6.52 | -4.10% |
这些WER分数是在没有外部语言模型的情况下使用贪婪解码获得的。更多评估细节可在Hugging Face ASR排行榜上找到。[6]



