A

AV HuBERT

由 nguyenvulebinh 开发
基于MuAViC数据集的多语言视听语音识别模型,结合音频和视觉模态实现鲁棒性能
下载量 683
发布时间 : 8/30/2024
模型介绍
内容详情
替代品

模型简介

AV-HuBERT是一种自监督模型,专为视听语音识别设计,通过结合音频和视觉模态实现鲁棒性能,尤其在嘈杂环境中表现优异。

模型特点

多模态融合
同时处理音频和视频输入,利用唇部运动信息增强语音识别
多语言支持
支持阿拉伯语、德语、希腊语、英语、西班牙语、法语、意大利语、葡萄牙语、俄语等多种语言
噪声鲁棒性
在嘈杂环境中通过视觉信息补充音频信号,提高识别准确性

模型能力

视听语音识别
多语言语音转文本
噪声环境语音处理

使用案例

语音识别
会议记录
在视频会议中自动生成文字记录
提高在背景噪声环境下的识别准确率
无障碍应用
为听障人士提供实时字幕服务
结合唇部运动信息提高理解度
教育
语言学习
帮助学习者通过观察唇部运动改善发音
提供更准确的语言发音反馈