高精度ASR

# 高精度ASR

Whisper Large V3 Turbo Swiss German

针对瑞士德语自动语音识别优化的Whisper模型，可将瑞士德语语音转录为标准德语文本

Transformers 支持多种语言

Gigaam Ctc With Lm

俄语自动语音识别模型，支持外部ngram语言模型和束搜索解码，可提取词级时间戳

Transformers 其他

waveletdeboshir

Quantum_STT 是一种先进的自动语音识别（ASR）和语音翻译模型，基于大规模弱监督训练，支持多种语言和任务。

Transformers 支持多种语言

GigaAM-v2-RNNT 是一个俄语自动语音识别（ASR）模型，基于RNNT架构，适用于语音转文本任务。

Transformers 其他

waveletdeboshir

GigaAM-v2-CTC 是一个俄语自动语音识别(ASR)模型，基于CTC损失函数训练，可通过Hugging Face transformers库使用。

Transformers 其他

waveletdeboshir

Whisper Large V3 Persian Common Voice 17

基于 Whisper Large v3 微调的波斯语自动语音识别模型，在 Common Voice 17 数据集上训练，包含超过 250,000 个波斯语音频样本，显著提升了识别准确性和鲁棒性。

MohammadGholizadeh

Canary 1b Flash

NVIDIA NeMo Canary Flash 是一个多语言多任务模型家族，在多个语音基准测试中实现了最先进的性能。支持四种语言的自动语音识别和翻译任务。

语音识别支持多种语言

Phi 4 Multimodal Instruct Ko Asr

基于microsoft/Phi-4-multimodal-instruct微调的韩语自动语音识别(ASR)和语音翻译(AST)模型，在zeroth-korean和fleurs数据集上表现优异。

文本生成音频

Transformers 韩语

Whisper Large V3

基于OpenAI Whisper Large v3模型针对希伯来语进行的微调版本，专注于希伯来语音频转录任务

Transformers 其他

Artst Asr V3 Qasr

基于QASR数据集微调的阿拉伯语自动语音识别模型，特别适配方言变体

Transformers 支持多种语言

Vi Whisper Large V3 Turbo V1

针对越南语自动语音识别(ASR)任务优化的Whisper-V3-Turbo模型，使用多个越南语数据集微调

Transformers 其他

Asr Streaming Conformer Gigaspeech

基于GigaSpeech数据集预训练的英文自动语音识别模型，支持流式和非流式转录

语音识别英语

Ja Cascaded S2t Translation

这是一个基于级联方法的日语语音到任意目标语言文本的翻译流水线，由自动语音识别（ASR）和文本翻译两部分组成。

Parakeet Tdt Ctc 110m

由NVIDIA NeMo和Suno.ai联合开发的英语语音识别模型，支持标点符号和大小写转换，采用FastConformer-TDT-CTC架构

语音识别英语

Indicconformer Stt Gu Hybrid Ctc Rnnt Large

IndicConformer 是一个基于混合 CTC-RNNT 架构的 Conformer 自动语音识别（ASR）模型，专门用于古吉拉特语的语音转录。

语音识别其他

Whisper Large V3 Ca 3catparla

这是一个针对加泰罗尼亚语优化的自动语音识别模型，基于OpenAI的Whisper-large-v3微调，由巴塞罗那超级计算中心开发。

Transformers 其他

Parakeet Tdt Ctc 0.6b Ja

Parakeet TDT-CTC 0.6B是一个能够转录带标点符号的日语语音的自动语音识别(ASR)模型，由NVIDIA NeMo团队开发。

语音识别日语

Asr Streaming Conformer Librispeech

这是一个基于LibriSpeech数据集预训练的端到端自动语音识别系统，支持流式和非流式模式，适用于英文语音识别。

语音识别英语

Canary-1B是NVIDIA NeMo开发的多语言多任务模型，支持英语、德语、法语和西班牙语的自动语音识别和语音翻译任务。

语音识别支持多种语言

Nb Whisper Large Verbatim

基于OpenAI Whisper开发的挪威语自动语音识别模型，经过额外训练实现全小写无标点的逐字转录

语音识别支持多种语言

Whisper Large V3

Whisper是由OpenAI提出的先进自动语音识别(ASR)和语音翻译模型，在超过500万小时的标注数据上训练，具有强大的跨数据集和跨领域泛化能力。

语音识别支持多种语言

Indicwav2vec Odia

基于Wav2Vec2架构的印地语自动语音识别(ASR)模型，由AI4Bharat开发

Transformers 其他

Stt Ua Fastconformer Hybrid Large Pc

NVIDIA FastConformer-Hybrid Large (ua) 是一个用于乌克兰语语音识别的混合模型，结合了Transducer和CTC两种损失函数训练，参数约1.15亿。

基于LibriSpeech数据集微调的SpeechT5自动语音识别模型，支持将语音转换为文本。

Whisper Th Medium Combined

基于openai/whisper-medium在增强版的泰语数据集上进行微调，用于泰语自动语音识别

Whisper Medium Ko Zeroth

基于OpenAI Whisper Medium模型在Zeroth韩语数据集上微调的语音识别模型，词错误率3.64%

Transformers 韩语

Whisper Medium.en

Whisper是OpenAI开发的自动语音识别(ASR)模型，经过68万小时标注语音数据训练，具有强大的泛化能力。

语音识别英语

Exp W2v2t Zh Cn Wavlm S596

基于microsoft/wavlm-large模型微调的中文语音识别模型，支持简体中文，使用Common Voice 7.0 (zh-CN)数据集训练。

Exp W2v2t Fr Unispeech S42

基于microsoft/unispeech-large-1500h-cv模型，使用Common Voice 7.0（法语）数据集微调的语音识别模型

Transformers 法语

Exp W2v2t It Vp 100k S449

基于facebook/wav2vec2-large-100k-voxpopuli模型微调的意大利语自动语音识别模型，使用Common Voice 7.0意大利语数据集训练。

Transformers 其他

Exp W2v2t It Wav2vec2 S609

基于facebook/wav2vec2-large-lv60模型微调的意大利语自动语音识别模型，使用Common Voice 7.0意大利语数据集训练。

Transformers 其他

Exp W2v2t Ja Vp It S544

基于facebook/wav2vec2-large-it-voxpopuli模型，使用Common Voice 7.0 (日语版)的训练集进行语音识别微调的日语自动语音识别模型。

Transformers 日语

Exp W2v2t Ja Unispeech Sat S884

基于microsoft/unispeech-sat-large模型微调的日语自动语音识别模型，使用Common Voice 7.0日语数据集训练。

Transformers 日语

Exp W2v2t Ja Wavlm S729

基于microsoft/wavlm-large模型微调的日语自动语音识别模型，使用Common Voice 7.0日语数据集训练

Transformers 日语

Exp W2v2t En Unispeech Sat S459

基于微软UniSpeech-SAT-Large模型微调的英语语音识别模型，支持16kHz采样率的语音输入。

Transformers 英语

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 V1

该模型是基于wav2vec2-large-xlsr-53在GARY109/AI_LIGHT_DANCE - ONSET-SINGING2数据集上微调的自动语音识别模型，主要用于歌唱语音识别任务。

该模型是基于facebook/wav2vec2-xls-r-300m在common_voice数据集上微调的语音识别模型，在评估集上取得了较低的词错误率。

Wav2vec2 Base 10k Voxpopuli Ft Cs

基于Facebook Wav2Vec2架构的语音识别模型，使用VoxPopuli语料库的10K未标记捷克语数据进行预训练，并在捷克语转录数据上微调。

Transformers 其他

这是一个基于facebook/wav2vec2-xls-r-300m模型在Common Voice 8迪维希语数据集上微调的自动语音识别模型

Transformers 其他

Wav2vec2 Xlsr Interlingua

该模型是基于facebook/wav2vec2-xls-r-1b在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - ia数据集上微调得到的版本，用于国际语的自动语音识别。

Transformers 其他

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24