V

Voice Clone Large Finetune Final

由 neuronbit 开发
该模型是基于openai/whisper-large-v3微调的语音克隆模型,主要用于语音识别任务,在评估集上词错误率为15.3572。
下载量 37
发布时间 : 11/27/2024
模型介绍
内容详情
替代品

模型简介

基于Whisper-large-v3微调的语音识别模型,专注于提高特定场景下的语音识别准确率。

模型特点

低词错误率
在评估集上达到15.3572的词错误率,表现优于许多通用语音识别模型
精细调优
基于Whisper-large-v3进行深度微调,适应特定语音识别场景
高效训练
采用混合精度训练和梯度累积等技术,优化训练效率

模型能力

语音识别
语音转文字
音频内容分析

使用案例

语音转录
会议记录
自动将会议录音转换为文字记录
词错误率15.3572
语音笔记
将语音备忘录转换为可搜索的文本
语音分析
语音内容分析
分析音频内容并提取关键信息