端到端ASR

# 端到端ASR

Parakeet Tdt 0.6b V2 Onnx

NVIDIA Parakeet TDT 0.6B V2 是一个基于自动语音识别（ASR）任务的模型，适用于英语语音转文本任务。

语音识别英语

Nue ASR是一种端到端的日语语音识别模型，集成了预训练的语音和语言模型，识别准确度高且速度快。

Transformers 支持多种语言

Asr Wav2vec2 Commonvoice 14 Es

这是一个基于CommonVoice西班牙语数据集训练的端到端自动语音识别系统，使用wav2vec 2.0预训练模型结合CTC解码器。

语音识别西班牙语

Asr Whisper Medium Commonvoice Ar

基于CommonVoice阿拉伯语数据集微调的Whisper medium语音识别模型，由SpeechBrain团队开发

语音识别阿拉伯语

Asr Whisper Medium Commonvoice Fa

基于CommonVoice-14.0波斯语数据集微调的whisper medium模型，用于波斯语自动语音识别任务。

语音识别其他

Faster Whisper Large V2 Japanese 5k Steps

基于Whisper Large V2模型的日语自动语音识别(ASR)模型，使用CTranslate2优化转换，支持高效推理。

Transformers 日语

Asr Conformer Transformerlm Librispeech

基于SpeechBrain框架的自动语音识别模型，使用Conformer编码器和Transformer解码器，在LibriSpeech数据集上训练，支持英语语音识别。

语音识别英语

Asr Whisper Large V2 Commonvoice Fa

这是一个基于whisper-large-v2架构的自动语音识别模型，专门针对波斯语在CommonVoice数据集上进行了微调。

语音识别其他

Wav2vec2 Large Xlsr 53 Spanish Ep5 944h

适用于西班牙语自动语音识别的声学模型，基于facebook/wav2vec2-large-xlsr-53微调5个周期，使用约944小时西班牙语数据。

Transformers 西班牙语

carlosdanielhernandezmena

Whisper Tiny.en

Whisper是一个预训练的自动语音识别(ASR)模型，在68万小时标注数据上训练，具有强大的泛化能力。

语音识别英语

Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型，经过68万小时标注数据训练，具有强大的泛化能力。

语音识别支持多种语言

Icefall Asr Gigaspeech Conformer Ctc

Icefall 是一个基于 k2 框架的自动语音识别（ASR）工具包，专注于高效和灵活的语音识别模型训练与推理。

语音识别英语

Asr Wav2vec2 Dvoice Wolof

这是一个针对沃洛夫语的自动语音识别模型，基于wav2vec 2.0架构，在DVoice数据集上训练，支持沃洛夫语语音转录。

语音识别其他

Asr Wav2vec2 Dvoice Amharic

这是一个针对阿姆哈拉语的自动语音识别模型，使用wav2vec 2.0架构和CTC/Attention机制训练

语音识别其他

Wav2vec2 Large Xlsr Turkish Demo Colab

基于facebook/wav2vec2-large-xlsr-53模型在common_voice土耳其语数据集上微调的语音识别模型

Wav2vec2 Large Xls R 300m Turkish Colab

基于facebook/wav2vec2-xls-r-300m在common_voice土耳其语数据集上微调的语音识别模型

Ascend With English

基于timit_asr数据集对ascend模型进行微调的英语语音识别模型

Wav2vec2 Base Timit Demo Colab

基于facebook/wav2vec2-base在TIMIT数据集上微调的语音识别模型，词错误率(WER)为0.3382

Wav2vec2 2 Bert Large No Adapter

基于LibriSpeech数据集训练的自动语音识别(ASR)模型，用于将英语语音转换为文本

Wav2vec2 Large Xls R 300m Hindi Colab

基于facebook/wav2vec2-xls-r-300m在通用语音数据集上微调的印地语语音识别模型

Wav2vec2 Large Xlsr Kyrgyz

这是一个基于facebook/wav2vec2-large-xlsr-53模型在吉尔吉斯语通用语音数据集上微调的自动语音识别模型。

语音识别其他

Wav2vec2 Xls R 300m Bas CV8 V2

基于facebook/wav2vec2-xls-r-300m在Common Voice 8数据集上微调的自动语音识别模型，支持巴斯克语(bas)。

Transformers 其他

Wav2vec2 Large Xlsr 53 Turkish

这是一个基于Facebook的wav2vec2-large-xlsr-53模型在土耳其语Common Voice数据集上微调的自动语音识别(ASR)模型。

语音识别其他

Wav2vec2 Large Xlsr Mongolian

这是一个基于facebook/wav2vec2-large-xlsr-53在蒙古语通用语音数据集上微调的自动语音识别模型

语音识别其他

Wav2vec2 Base Vietnamese 250h

基于wav2vec 2.0架构的越南语自动语音识别模型，在13,000小时未标注音频和250小时标注数据上训练

Transformers 其他

Asr Crdnn Commonvoice Fr

这是一个基于CommonVoice法语数据集训练的端到端自动语音识别系统，采用CRDNN架构结合CTC和注意力机制。

语音识别法语

Wav2vec2 Base Turkish Cv7

基于wav2vec2架构的土耳其语自动语音识别模型，在Common Voice 7.0土耳其语数据集上微调

Transformers 其他

Wav2vec2 Large Xlsr Thai Demo

基于facebook/wav2vec2-large-xlsr-53在泰语通用语音数据集上微调的语音识别模型

Transformers 其他

Wav2vec2 Large Xlsr 53 Lithuanian

基于facebook/wav2vec2-large-xlsr-53模型，使用Common Voice数据集对立陶宛语进行微调的自动语音识别模型。

语音识别其他

基于facebook/wav2vec2-xls-r-300m在马拉地语数据集上微调的自动语音识别模型

Transformers 其他

StephennFernandes

Asr Wav2vec2 Commonvoice En

这是一个基于CommonVoice英语数据集训练的端到端自动语音识别系统，结合了wav2vec 2.0预训练模型和CTC解码器。

语音识别英语

Asr Transformer Aishell

基于SpeechBrain框架预训练的AISHELL（普通话）端到端自动语音识别系统，采用Transformer编码器+联合解码器结构

语音识别英语

Asr Wav2vec2 Commonvoice Fr

基于CommonVoice法语数据集训练的wav2vec 2.0语音识别模型，使用CTC/Attention架构，无需语言模型

语音识别法语

Wav2vec2 Large Xlsr Estonian

这是一个基于facebook/wav2vec2-large-xlsr-53模型微调的爱沙尼亚语自动语音识别(ASR)模型，使用Common Voice数据集进行训练。

语音识别其他

Wav2vec2 Base 100h

基于LibriSpeech 100小时数据训练的Wav2Vec2基础版语音识别模型

Transformers 英语

Wav2vec2 Random

基于TIMIT_ASR数据集对wav2vec2-base-random模型进行微调的自动语音识别模型

patrickvonplaten

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24