Parakeet-tdt-0.6b-v2开源语音识别模型 - 免费实现英文转录及标点、时间戳预测

首页

Parakeet Tdt 0.6b V2

由 nvidia 开发

拥有6亿参数的自动语音识别模型，支持英文转录、标点符号、大小写和时间戳预测

语音识别

PyTorch

英语#长音频转录 #词级时间戳 #标点大小写预测

下载量 242.71k

发布时间 : 4/15/2025

模型简介

Parakeet TDT 0.6B V2是一款高质量的自动语音识别(ASR)模型，专为英文转录设计，支持精确的时间戳预测、自动标点符号和大小写处理。

模型特点

精确时间戳预测

支持词级、字符级和片段级的时间戳预测

自动标点符号和大小写

自动处理转录文本中的标点符号和大小写

长音频处理能力

能够一次性处理长达24分钟的音频片段

鲁棒性表现

在口语数字和歌词转录方面表现稳健

模型能力

语音转文本

时间戳预测

标点符号恢复

大小写恢复

使用案例

对话式AI

语音助手

构建支持语音交互的智能助手

转录服务

会议记录

自动转录会议音频

在AMI测试集上WER为11.16

字幕生成

为视频内容自动生成字幕

语音分析

语音数据分析

分析语音数据以提取洞察

🚀 鹦鹉螺TDT 0.6B V2（英文）

parakeet-tdt-0.6b-v2 是一款拥有6亿参数的自动语音识别（ASR）模型，专为高质量英文转录而设计。它支持标点符号、大小写处理以及准确的时间戳预测。点击此处试用演示：https://huggingface.co/spaces/nvidia/parakeet-tdt-0.6b-v2

🚀 快速开始

本模型适用于需要语音转文本功能的开发者、研究人员、学者和行业人士，可应用于对话式AI、语音助手、转录服务、字幕生成和语音分析平台等领域。

✨ 主要特性

准确的词级时间戳预测
自动添加标点和大小写
在口语数字和歌词转录方面表现出色

📦 安装指南

若要训练、微调或使用该模型，你需要安装 NVIDIA NeMo。建议在安装最新版本的PyTorch之后再进行安装。

pip install -U nemo_toolkit["asr"]

💻 使用示例

基础用法

自动实例化模型：

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")

高级用法

使用Python进行转录：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

转录并获取时间戳：

output = asr_model.transcribe(['2086-149220-0033.wav'], timestamps=True)
# 默认情况下，时间戳适用于字符、单词和片段级别
word_timestamps = output[0].timestamp['word'] # 第一个样本的单词级时间戳
segment_timestamps = output[0].timestamp['segment'] # 片段级时间戳
char_timestamps = output[0].timestamp['char'] # 字符级时间戳

for stamp in segment_timestamps:
    print(f"{stamp['start']}s - {stamp['end']}s : {stamp['segment']}")

📚 详细文档

模型信息

属性	详情
模型类型	`parakeet-tdt-0.6b-v2` 是一款自动语音识别（ASR）模型，采用FastConformer架构并集成TDT解码器，拥有6亿参数，支持英文转录，具备标点、大小写和时间戳预测功能。
训练数据	该模型在Granary数据集上进行训练，包含约120,000小时的英文语音数据，其中10,000小时来自人工转录的NeMo ASR Set 3.0，110,000小时来自伪标签数据。

软件集成

运行时引擎：NeMo 2.2
支持的硬件微架构：NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Hopper、NVIDIA Volta
推荐/支持的操作系统：Linux
硬件特定要求：至少2GB RAM用于加载模型，RAM越大，支持的音频输入越大。

训练和评估

训练

该模型使用NeMo工具包进行训练，具体策略如下：

从在LibriLight数据集上使用wav2vec方法预训练的FastConformer SSL检查点初始化。
在64个A100 GPU上进行150,000步训练。
使用温度采样值0.5平衡数据集语料库。
在4个A100 GPU上使用约500小时的高质量人工转录数据进行2,500步的第二阶段微调。

训练使用了示例脚本和 TDT配置。分词器使用脚本从训练集转录构建。

训练数据集

模型在Granary数据集上训练，包含约120,000小时的英文语音数据：

10,000小时来自人工转录的NeMo ASR Set 3.0，包括LibriSpeech、Fisher Corpus等。
110,000小时来自伪标签数据，包括YTC、YODAS和Librilight。

所有转录都保留了标点和大小写。Granary数据集将在2025年Interspeech会议展示后公开。

评估数据集

使用Huggingface Open ASR Leaderboard数据集评估模型性能。

性能

基础性能

模型	平均WER	AMI	Earnings-22	GigaSpeech	LS test-clean	LS test-other	SPGI Speech	TEDLIUM-v3	VoxPopuli
parakeet-tdt-0.6b-v2	6.05	11.16	11.15	9.74	1.69	3.19	2.17	3.38	5.95

噪声鲁棒性

SNR级别	平均WER	AMI	Earnings	GigaSpeech	LS test-clean	LS test-other	SPGI	Tedlium	VoxPopuli	相对变化
干净	6.05	11.16	11.15	9.74	1.69	3.19	2.17	3.38	5.95	-
SNR 50	6.04	11.11	11.12	9.74	1.70	3.18	2.18	3.34	5.98	+0.25%
SNR 25	6.50	12.76	11.50	9.98	1.78	3.63	2.54	3.46	6.34	-7.04%
SNR 5	8.39	19.33	13.83	11.28	2.36	5.50	3.91	3.91	6.96	-38.11%

电话音频性能

音频格式	平均WER	AMI	Earnings	GigaSpeech	LS test-clean	LS test-other	SPGI	Tedlium	VoxPopuli	相对变化
标准16kHz	6.05	11.16	11.15	9.74	1.69	3.19	2.17	3.38	5.95	-
μ-law 8kHz	6.32	11.98	11.16	10.02	1.78	3.52	2.20	3.38	6.52	-4.10%

这些WER分数是在不使用外部语言模型的情况下使用贪心解码获得的。更多评估细节可在 Hugging Face ASR Leaderboard 上查看。

推理

引擎：NVIDIA NeMo
测试硬件：NVIDIA A10、NVIDIA A100、NVIDIA A30、NVIDIA H100、NVIDIA L4、NVIDIA L40、NVIDIA Turing T4、NVIDIA Volta V100

伦理考量

NVIDIA认为可信AI是一项共同责任，并制定了相关政策和实践，以支持各种AI应用的开发。开发者在下载或使用该模型时，应与支持模型团队合作，确保模型符合相关行业和用例的要求，并解决潜在的产品滥用问题。

如需了解该模型的更多伦理考量信息，请参阅 Model Card++ Explainability, Bias, Safety & Security, and Privacy Subcards。

请在此报告安全漏洞或NVIDIA AI问题。

偏差

领域	响应
模型设计和测试中受不利影响群体（受保护类别）的参与考虑	无
为减轻不必要偏差所采取的措施	无

可解释性

领域	响应
预期领域	语音转文本转录
模型类型	FastConformer
预期用户	该模型适用于开发人员、研究人员、学者和构建基于对话应用的行业。
输出	文本
描述模型的工作原理	语音输入被编码为嵌入向量，然后传入基于Conformer的模型并输出文本响应。
已测试以确保无论哪些受不利影响群体都能获得可比结果	不适用
技术限制及缓解措施	转录可能并非100%准确。准确性会根据语言和输入音频的特征（领域、用例、口音、噪声、语音类型、语音上下文等）而有所不同。
已验证符合规定的NVIDIA质量标准	是
性能指标	单词错误率
潜在已知风险	如果某个单词未在语言模型中训练且未出现在词汇表中，则该单词不太可能被识别。不建议用于逐字/不完整的句子，因为准确性会根据输入文本的上下文而有所不同。
许可	使用此模型受 CC-BY-4.0 许可协议的约束。

隐私

领域	响应
是否可生成或逆向工程个人数据？	无
是否使用个人数据创建此模型？	无
训练中使用的所有数据集是否有来源证明？	是
数据标注（注释、元数据）是否符合隐私法？	是
如果提出数据更正或删除请求，数据是否符合数据主体的请求？	否，对于外部来源的数据无法实现。
适用的隐私政策	https://www.nvidia.com/en-us/about-nvidia/privacy-policy/

安全

领域	响应
模型应用	语音转文本转录
描述对生命的关键影响	无
使用案例限制	遵守 CC-BY-4.0 许可协议。
模型和数据集限制	应用最小特权原则（PoLP）限制数据集生成和模型开发的访问权限。在训练期间实施数据集访问限制，并遵守数据集许可约束。