F

Fsmn Vad

由 funasr 开发
FunASR是一个致力于连接语音识别学术研究与工业应用的基础工具包,支持语音识别、语音活动检测、标点恢复等多种功能。
下载量 107
发布时间 : 2/1/2024
模型介绍
内容详情
替代品

模型简介

FunASR提供全栈语音处理功能,包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言模型等,支持预训练模型的推理与微调。

模型特点

工业级模型支持
提供经过工业数据训练的预训练模型,可直接用于生产环境
全栈语音处理
整合ASR、VAD、标点恢复、说话人验证等完整语音处理流程
高效推理
Paraformer模型兼具高精度与高效率,适合实时应用场景

模型能力

语音识别
语音活动检测
标点恢复
说话人验证
多说话人识别
时间戳预测

使用案例

语音转写
会议记录自动生成
将会议录音自动转写为带标点和说话人信息的文本
准确率可达90%以上(依赖音频质量)
实时语音处理
实时字幕生成
为直播或视频会议提供实时字幕
延迟可控制在600ms以内