语言: 越南语
数据集:
- legacy-datasets/common_voice
- vlsp2020_vinai_100h
- AILAB-VNUHCM/vivos
- doof-ferb/vlsp2020_vinai_100h
- doof-ferb/fpt_fosd
- doof-ferb/infore1_25hours
- linhtran92/viet_bud500
- doof-ferb/LSVSC
- doof-ferb/vais1000
- doof-ferb/VietMed_labeled
- NhutP/VSV-1100
- doof-ferb/Speech-MASSIVE_vie
- doof-ferb/BibleMMS_vie
- capleaf/viVoice
评估指标:
- wer
任务标签: 自动语音识别
标签:
- 转录
- 音频
- 语音
- chunkformer
- asr
- 自动语音识别
许可证: cc-by-nc-4.0
模型索引:
- 名称: ChunkFormer 大型越南语模型
结果:
- 任务:
名称: 语音识别
类型: 自动语音识别
数据集:
名称: common-voice-vietnamese
类型: common_voice
参数: vi
评估指标:
- 名称: 测试 WER
类型: wer
值: 6.66
来源:
名称: Common Voice Vi 排行榜
网址: https://paperswithcode.com/sota/speech-recognition-on-common-voice-vi
- 任务:
名称: 语音识别
类型: 自动语音识别
数据集:
名称: VIVOS
类型: vivos
参数: vi
评估指标:
- 名称: 测试 WER
类型: wer
值: 4.18
来源:
名称: Vivos 排行榜
网址: https://paperswithcode.com/sota/speech-recognition-on-vivos
- 任务:
名称: 语音识别
类型: 自动语音识别
数据集:
名称: VLSP - 任务 1
类型: vlsp
参数: vi
评估指标:
- 名称: 测试 WER
类型: wer
值: 14.09
ChunkFormer-Large-Vie: 大规模预训练 ChunkFormer 用于越南语自动语音识别






目录
- 模型描述
- 文档与实现
- 基准测试结果
- 使用方法
- 引用
- 联系方式
模型描述
ChunkFormer-Large-Vie 是基于 ChunkFormer 架构的大规模越南语自动语音识别 (ASR) 模型,首次发布于 ICASSP 2025。该模型在约 3000 小时 的越南语公开语音数据上进行了微调,数据来源多样。数据集列表可查看 此处。
!!! 请注意,仅使用了 [训练子集] 进行模型调优。
文档与实现
文档 和 实现 已公开。
基准测试结果
我们使用 词错误率 (WER) 评估模型。为确保比较的一致性和公平性,我们手动应用了 文本归一化,包括数字、大写字母和标点符号的处理。
-
公开模型:
| 序号 | 模型 | 参数数量 | Vivos | Common Voice | VLSP - 任务 1 | 平均 |
|-----|------------------------------------------------------------------------|---------|-------|--------------|---------------|------|
| 1 | ChunkFormer | 110M | 4.18 | 6.66 | 14.09 | 8.31 |
| 2 | vinai/PhoWhisper-large | 1.55B | 4.67 | 8.14 | 13.75 | 8.85 |
| 3 | nguyenvulebinh/wav2vec2-base-vietnamese-250h | 95M | 10.77 | 18.34 | 13.33 | 14.15 |
| 4 | openai/whisper-large-v3 | 1.55B | 8.81 | 15.45 | 20.41 | 14.89 |
| 5 | khanhld/wav2vec2-base-vietnamese-160h | 95M | 15.05 | 10.78 | 31.62 | 19.16 |
| 6 | homebrewltd/Ichigo-whisper-v0.1 | 22M | 13.46 | 23.52 | 21.64 | 19.54 |
-
私有模型 (API):
| 序号 | 模型 | VLSP - 任务 1 |
|-----|--------|---------------|
| 1 | ChunkFormer | 14.1 |
| 2 | Viettel | 14.5 |
| 3 | Google | 19.5 |
| 4 | FPT | 28.8 |
快速使用
使用 ChunkFormer 模型进行越南语自动语音识别的步骤如下:
- 下载 ChunkFormer 仓库
git clone https://github.com/khanld/chunkformer.git
cd chunkformer
pip install -r requirements.txt
- 从 Hugging Face 下载模型检查点
pip install huggingface_hub
huggingface-cli download khanhld/chunkformer-large-vie --local-dir "./chunkformer-large-vie"
或
git lfs install
git clone https://huggingface.co/khanhld/chunkformer-large-vie
这将下载模型检查点到 chunkformer 目录中的 checkpoints 文件夹。
- 运行模型
python decode.py \
--model_checkpoint path/to/local/chunkformer-large-vie \
--long_form_audio path/to/audio.wav \
--total_batch_duration 14400 \
--chunk_size 64 \
--left_context_size 128 \
--right_context_size 128
示例输出:
[00:00:01.200] - [00:00:02.400]: 这是一个转录示例
[00:00:02.500] - [00:00:03.700]: 测试长音频
高级用法 请查看 此处
引用
如果您在研究中使用了本工作,请引用:
@INPROCEEDINGS{10888640,
author={Le, Khanh and Ho, Tuan Vu and Tran, Dung and Chau, Duc Thanh},
booktitle={ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
title={ChunkFormer: Masked Chunking Conformer For Long-Form Speech Transcription},
year={2025},
volume={},
number={},
pages={1-5},
keywords={Scalability;Memory management;Graphics processing units;Signal processing;Performance gain;Hardware;Resource management;Speech processing;Standards;Context modeling;chunkformer;masked batch;long-form transcription},
doi={10.1109/ICASSP49660.2025.10888640}}
}
联系方式
- khanhld218@gmail.com

