C

Chunkformer Large Vie

由 khanhld 开发
基于ChunkFormer架构的大规模越南语自动语音识别模型,在约3000小时的越南语公开语音数据上微调,性能优异。
下载量 1,765
发布时间 : 2/1/2025
模型介绍
内容详情
替代品

模型简介

ChunkFormer-Large-Vie是一个专门针对越南语优化的自动语音识别模型,采用ChunkFormer架构,在多个公开数据集上取得了领先的性能表现。

模型特点

高性能越南语识别
在Common Voice Vi和VIVOS数据集上取得SOTA成绩,WER分别为6.66和4.18。
长音频处理能力
支持长音频转录,通过分块处理技术优化内存使用和计算效率。
多数据集训练
在约3000小时的多样化越南语语音数据上训练,覆盖多种场景和口音。

模型能力

越南语语音识别
长音频转录
实时语音转文字

使用案例

语音转写
会议记录
将越南语会议录音自动转写为文字记录
高准确率的转录结果
语音助手
为越南语语音助手提供语音识别能力
低延迟、高准确率的识别
教育
语言学习
帮助学习者练习越南语发音和听力
提供准确的发音评估