A

AV HuBERT MuAViC Ru

由 nguyenvulebinh 开发
AV-HuBERT是一种视听语音识别模型,基于MuAViC多语言视听语料库训练,结合音频和视觉模态实现鲁棒性能。
下载量 91
发布时间 : 3/6/2025
模型介绍
内容详情
替代品

模型简介

AV-HuBERT是一种自监督模型,专为视听语音识别设计,通过结合音频和视觉模态实现鲁棒性能,尤其在嘈杂环境中表现优异。

模型特点

多语言支持
支持包括阿拉伯语、德语、希腊语、英语、西班牙语、法语、意大利语、葡萄牙语、俄语在内的多种语言。
视听结合
结合音频和视觉模态,提高在嘈杂环境中的语音识别性能。
预训练模型
提供在MuAViC数据集上微调的预训练模型,便于快速部署。

模型能力

视听语音识别
多语言语音识别
嘈杂环境下的语音识别

使用案例

语音识别
多语言语音转录
将多种语言的语音转换为文本
嘈杂环境下的语音识别
在背景噪声较大的环境中进行语音识别
通过结合视觉信息提高识别准确率