W

Whisper Large V3 Voice Quality

由 tiantiaf 开发
基于Whisper Large v3的语音质量分类模型,用于分析语音的音高、音质、音量、清晰度和节奏等特征。
下载量 162
发布时间 : 5/22/2025
模型介绍
内容详情
替代品

模型简介

本模型实现了《Vox-Profile: 用于表征多样化说话人与语音特征的语音基础模型基准》中描述的语音质量分类方法,能够对语音的多维度特征进行分类。

模型特点

多维度语音特征分析
能够同时分析语音的音高、音质、音量、清晰度和节奏等多个维度的特征。
说话人级别评估
采用说话人级别的宏平均F1分数进行评估,确保评估结果的代表性。
高效音频处理
支持最长15秒的音频输入,16kHz采样率,单声道处理。

模型能力

语音质量分类
音高分析
音质分析
音量分析
清晰度分析
节奏分析

使用案例

语音分析
语音特征标注
为语音样本自动标注音高、音质等特征标签。
提供详细的语音特征分类结果
说话人特征分析
分析说话人的语音特征模式。
生成说话人级别的语音特征报告
语音研究
语音特征研究
用于语音特征与说话人特征的相关性研究。