P

Parakeet Tdt 0.6b V2

由 nvidia 开发
拥有6亿参数的自动语音识别模型,支持英文转录、标点符号、大小写和时间戳预测
下载量 242.71k
发布时间 : 4/15/2025
模型介绍
内容详情
替代品

模型简介

Parakeet TDT 0.6B V2是一款高质量的自动语音识别(ASR)模型,专为英文转录设计,支持精确的时间戳预测、自动标点符号和大小写处理。

模型特点

精确时间戳预测
支持词级、字符级和片段级的时间戳预测
自动标点符号和大小写
自动处理转录文本中的标点符号和大小写
长音频处理能力
能够一次性处理长达24分钟的音频片段
鲁棒性表现
在口语数字和歌词转录方面表现稳健

模型能力

语音转文本
时间戳预测
标点符号恢复
大小写恢复

使用案例

对话式AI
语音助手
构建支持语音交互的智能助手
转录服务
会议记录
自动转录会议音频
在AMI测试集上WER为11.16
字幕生成
为视频内容自动生成字幕
语音分析
语音数据分析
分析语音数据以提取洞察