S

Smart Turn V2

由 pipecat-ai 开发
Smart Turn v2 是一个开源的语义语音活动检测(VAD)模型,通过分析原始波形来判断说话者是否已结束发言。
下载量 670
发布时间 : 7/11/2025

模型简介

该模型支持多语言,模型体积小且速度快,适用于语音助手、实时转录等场景。

模型特点

多语言支持
支持 14 种语言,满足不同语言环境下的语音活动检测需求。
模型体积小
相较于 v1 版本,模型体积缩小 6 倍,仅约 360 MB,更易于部署和使用。
速度快
分析音频的速度提升 3 倍,在 NVIDIA L40S 上分析 8 秒音频仅需约 12 毫秒。

模型能力

语义语音活动检测
多语言语音分析
实时语音处理

使用案例

语音助手/聊天机器人
避免打断用户
等待用户真正结束说话后再回复,避免打断用户。
提升用户体验
实时转录 + 文本转语音(TTS)
触发 TTS
仅在用户发言结束时触发 TTS,避免“双向对话”。
提高转录准确性
呼叫中心辅助与分析
说话人分离和情感分析
为说话人分离和情感分析管道提供准确的分割。
提升分析效率
AIbase
智启未来,您的人工智能解决方案智库
简体中文