越南语语音识别

# 越南语语音识别

Whisper Small Vi

基于openai/whisper-small针对越南语语音数据微调的自动语音识别模型，提升越南语转录准确性和鲁棒性

Transformers 其他

Whisper Base Vi

基于openai/whisper-base模型在100小时越南语语音数据上微调的语音识别模型，提升越南语转录准确性

Transformers 其他

Chunkformer Large Vie

基于ChunkFormer架构的大规模越南语自动语音识别模型，在约3000小时的越南语公开语音数据上微调，性能优异。

语音识别其他

Vi Whisper Large V3 Turbo V1

针对越南语自动语音识别(ASR)任务优化的Whisper-V3-Turbo模型，使用多个越南语数据集微调

Transformers 其他

Viwhisper Medium

针对越南语语音识别任务优化的Whisper-medium模型，在1308小时越南语数据上微调

Transformers 其他

Whisper Tiny Vi

基于OpenAI Whisper-tiny架构微调的越南语自动语音识别(ASR)模型，在多个越南语数据集上表现出色

Transformers 其他

Phowhisper Medium

PhoWhisper 是一个专为越南语自动语音识别（ASR）设计的模型系列，通过在844小时越南语口音数据集上微调Whisper模型实现高鲁棒性。

Transformers 其他

Phowhisper Tiny

PhoWhisper 是一个针对越南语优化的自动语音识别模型，通过在包含844小时不同越南语口音的数据集上微调Whisper模型实现。

Transformers 其他

Phowhisper Small

PhoWhisper是一个专为越南语自动语音识别设计的系统，基于Whisper模型微调，支持多种越南语口音。

Transformers 其他

Wav2vec2 Bartpho

这是一个支持越南语的自动语音识别模型，能够输出规范化文本、标记时间戳以及多说话人分段。

Transformers 其他

Whisper Large V2 Vietnamese

该模型是基于OpenAI的Whisper Small架构，在Common Voice 11.0越南语数据集上微调的自动语音识别(ASR)模型

Transformers 其他

Wav2vec2 Large Vi Vlsp2020

基于wav2vec2架构的越南语自动语音识别模型，预训练使用1.3万小时未标注YouTube音频，并在250小时标注数据上微调

Transformers 其他

Wav2vec2 Base Vietnamese 160h

基于Wav2vec2的越南语语音识别模型，在160小时越南语语音数据上微调

Transformers 其他

Viwav2vec2 Base 3k

该模型是基于3千小时越南语语音数据预训练的Wav2Vec2基础模型，适用于越南语语音识别任务，需在下游任务上微调后使用。

Transformers 其他

Viwav2vec2 Base 1.5k

该模型通过1.5千小时越南语语音数据预训练得到，适用于越南语语音识别任务，需微调后使用。

Transformers 其他

Wav2vec NCKH 2022

基于Wav2vec2架构的越南语自动语音识别模型，支持从音频到文本的转换

Transformers 其他

Wav2vec2 Large Xls R 300m Vietnamese Colab

该模型是基于facebook/wav2vec2-xls-r-300m在通用语音数据集上微调的越南语语音识别模型

Fb Youtube Vi Large

该模型是基于facebook/wav2vec2-large-xlsr-53在越南语YouTube非正式音频数据集上微调的自动语音识别模型。

Wav2vec2 Large Xlsr 53 Vietnamese

基于facebook/wav2vec2-large-xlsr-53模型微调的越南语自动语音识别模型，支持16kHz采样率的语音输入。

Transformers 其他

Fb Vindata Vi Large

该模型是基于facebook/wav2vec2-large-xlsr-53在PHONGDTD/VINDATAVLSP - NA数据集上微调的越南语自动语音识别模型

Wav2vec2 Large Xlsr 53 Vietnamese

基于facebook/wav2vec2-large-xlsr-53模型微调的越南语自动语音识别模型，使用通用语音数据集训练。

语音识别其他

Wav2vec2 Base Vietnamese 250h

基于wav2vec 2.0架构的越南语自动语音识别模型，在13,000小时未标注音频和250小时标注数据上训练

Transformers 其他

Xls Asr Vi 40h 1B

基于facebook/wav2vec2-xls-r-1b在40小时FPT开放语音数据集(FOSD)和公共语音数据集7.0上微调的越南语自动语音识别模型

Transformers 其他

Fine Tune XLSR Wav2Vec2 Speech2Text Vietnamese

这是一个基于MT5架构的越南语自动语音识别(ASR)修复模型，针对越南语语音识别任务进行了微调。

语音识别其他

基于microsoft/wavlm-base-plus在PHONGDTD/VINDATAVLSP - NA数据集上微调的越南语自动语音识别模型

Wav2vec2 Base Vietnamese

基于Wav2Vec2架构的越南语语音识别模型，在VSLP数据集上微调，支持16kHz采样率的语音输入

Transformers 其他

该模型是基于facebook/wav2vec2-xls-r-300m在Common Voice 7.0越南语及私有数据集上微调的语音识别模型。

Transformers 其他

Wavlm Vindata Demo Dist

基于microsoft/wavlm-base在越南语数据集上微调的自动语音识别模型

Wav2vec2 Base Vn 270h

基于约270小时越南语标注数据微调的语音识别模型，支持越南语自动语音识别任务

语音识别其他

Viwav2vec2 Base 100h

基于VLSP数据集中100小时未标注越南语语音音频预训练的Wav2Vec2基础模型，需在下游任务上微调使用。

Transformers 其他

Wav2vec2 Large Xlsr Vietnamese

基于facebook/wav2vec2-large-xlsr-53模型微调的越南语自动语音识别模型

语音识别其他

Wav2vec2 Large Xlsr Vietnamese

这是一个基于facebook/wav2vec2-large-xlsr-53模型在越南语上微调的语音识别模型，使用了Common Voice和Infore_25h数据集进行训练。

语音识别其他

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24