V

Voc2vec

由 alkiskoudounas 开发
voc2vec是专为非语言人类数据设计的基础模型,基于wav2vec 2.0框架构建,预训练数据集涵盖约125小时非语言音频。
下载量 223
发布时间 : 2/6/2025
模型介绍
内容详情
替代品

模型简介

voc2vec是一个用于非语言人类音频数据的基础模型,主要用于音频分类任务,特别适用于婴儿啼哭等非语言发声的分类和分析。

模型特点

非语言发声分类
专门针对非语言人类音频数据设计,如婴儿啼哭、笑声等。
多数据集预训练
使用10个不同数据集的集合进行预训练,涵盖约125小时的非语言音频。
多种变体模型
提供基于不同预训练数据集的模型变体,包括AudioSet、LibriSpeech和HuBERT。

模型能力

非语言发声分类
音频特征提取
婴儿啼哭识别

使用案例

医疗健康
婴儿啼哭分析
用于分析婴儿啼哭,帮助识别婴儿的需求或健康状态。
在Donate a Cry数据集上表现良好。
语音研究
非语言发声研究
用于研究人类非语言发声的特征和模式。
在多个非语言发声数据集上进行了评估。