N

Navaistt V1 Medium

由 islomov 开发
基于Whisper medium模型微调的乌兹别克语语音识别模型,支持塔什干方言,训练数据约700小时
下载量 3,081
发布时间 : 5/2/2025
模型介绍
内容详情
替代品

模型简介

专为乌兹别克语优化的自动语音识别模型,特别针对塔什干方言进行优化,适用于音频转录任务

模型特点

塔什干方言优化
特别关注塔什干方言音频材料,使模型在该方言上表现优异
多样化训练数据
使用约700小时多样化音频数据,包括播客、有声书和Common Voice语料
混合质量数据训练
60%人工转录与40%伪转录材料(Gemini 2.5 Pro生成)的混合训练策略

模型能力

乌兹别克语语音识别
塔什干方言识别
音频转录
30秒内短语音处理

使用案例

语音转录
播客内容转录
将乌兹别克语播客内容自动转为文字
词错误率约13%
有声书转录
将乌兹别克语有声书转为文本格式
语音助手
乌兹别克语语音输入
为应用程序添加乌兹别克语语音输入功能