高精度语音识别

# 高精度语音识别

Whisper Kurmanji

针对库尔德语库尔曼吉方言的自动语音识别模型，基于Whisper架构微调

Safetensors 其他

NextVoice是由Lamapi开发的开源语音转文字解决方案，支持高质量转录和实时处理。

Transformers 其他

Medical Whisper Large V3

基于whisper-large-v3微调的医疗场景专用语音识别模型

Transformers 英语

Whisper Small Medical Speech Recognition

基于OpenAI Whisper-small微调的医疗领域语音识别模型，支持医疗场景下的语音转文本任务

Parakeet Rnnt 1.1b

Parakeet RNNT 1.1B是由NVIDIA NeMo和Suno.ai联合开发的自动语音识别模型，基于FastConformer Transducer架构，参数约11亿，支持英语语音转录。

语音识别英语

Stt En Fastconformer Transducer Xlarge

NVIDIA FastConformer-Transducer 是一个用于英语自动语音识别(ASR)的高性能模型，采用优化的FastConformer架构和Transducer解码器，参数规模约6.18亿。

语音识别英语

Stt En Fastconformer Ctc Xlarge

NVIDIA FastConformer-CTC XLarge是一个约6亿参数的自动语音识别(ASR)模型，专为英语语音转录设计，采用FastConformer架构和CTC损失训练。

语音识别英语

Stt En Fastconformer Ctc Large

这是一个基于FastConformer架构的大型自动语音识别(ASR)模型，专门用于将英语语音转录为文本。

语音识别英语

Stt En Fastconformer Transducer Large

这是一个基于FastConformer架构的大型自动语音识别(ASR)模型，专门用于将英语语音转录为文本。

语音识别英语

Whisper Large V2 Japanese 5k Steps

基于OpenAI的whisper-large-v2模型在日语CommonVoice数据集上微调的语音识别模型，训练5000步，词错误率0.7449

Transformers 日语

Wav2vec2 Large Tedlium

基于TEDLIUM语料库微调的Wav2Vec2大型语音识别模型，支持英语语音转文本

语音识别英语

Stt En Conformer Transducer Xlarge

这是一个由NVIDIA开发的自动语音识别(ASR)模型，基于Conformer-Transducer架构，拥有约6亿参数，专门用于英语语音转录。

语音识别英语

Asr Wav2vec2 Librispeech

这是一个基于LibriSpeech数据集训练的端到端自动语音识别系统，结合了wav2vec 2.0预训练模型和CTC技术，在英语语音识别任务上表现出色。

语音识别英语

Wav2vec2 Large 960h Lv60 Self With Wikipedia Lm

基于Facebook的wav2vec2-large-960h-lv60-self模型，通过增强维基百科语言模型改进的自动语音识别(ASR)系统

Wav2vec2 Conformer Rope Large 100h Ft

基于Librispeech 100小时语音数据微调的Wav2Vec2 Conformer模型，采用旋转位置嵌入技术

Transformers 英语

Wav2vec2 Conformer Rope Large 960h Ft

该模型整合了旋转位置嵌入技术，基于16kHz采样的语音音频，在960小时的LibriSpeech数据上进行了预训练和精细调优，适用于英语语音识别任务。

Transformers 英语

Wav2vec2 Conformer Rel Pos Large 100h Ft

采用相对位置嵌入技术的Wav2Vec2-Conformer大型语音识别模型，基于Librispeech 100小时语音数据微调

Transformers 英语

Wav2vec2 Conformer Rel Pos Large 960h Ft

基于16kHz采样语音音频的Wav2Vec2-Conformer模型，采用相对位置嵌入技术，在960小时Librispeech数据上预训练和微调

Transformers 英语

Wav2vec2 Large 960h Lv60 Self 4 Gram

基于Facebook Wav2Vec2-Large-960h-lv60-self模型，增加了英语4-gram语言模型以提升语音识别准确率

语音识别英语

patrickvonplaten

Wav2vec2 Base 960h 4 Gram

基于Facebook的Wav2Vec2-Base-960h模型，增加了英语4-gram语言模型，用于提高自动语音识别(ASR)的准确率。

Transformers 英语

patrickvonplaten

Wav2vec2 Large Xlsr 300m Nepali

这是一个基于Wav2Vec2架构的尼泊尔语语音识别模型，支持将尼泊尔语语音转换为文本。

Stt En Conformer Ctc Large

这是一个基于Conformer架构的大型自动语音识别(ASR)模型，支持英语语音转录，使用CTC损失函数进行训练。

语音识别英语

Data2vec Audio Large 960h

Data2Vec是一个通用自监督学习框架，适用于语音、视觉和语言任务。该音频大模型基于LibriSpeech的960小时语音数据预训练和微调，专为自动语音识别任务优化。

Transformers 英语

Iwslt Asr Wav2vec Large 4500h

基于Wav2Vec2架构的大规模英语自动语音识别模型，在4500小时多源语音数据上微调，支持带语言模型的解码

Transformers 英语

Wavlm Libri Clean 100h Large

基于microsoft/wavlm-large在LIBRISPEECH_ASR - CLEAN数据集上微调的自动语音识别模型

patrickvonplaten

Wav2vec Odia Stt

这是一个基于Wav2Vec2架构的奥里亚语(Odia)语音识别模型，能够将奥里亚语语音转换为文本。

Wav2vec2 Dogri Stt

这是一个基于Wav2Vec2架构的自动语音识别（ASR）模型，专门用于识别多格拉语（Dogri）的语音内容。

Wav2vec2 Base 960h

Wav2Vec2是一个基于自监督学习的语音识别模型，由Facebook开发，在LibriSpeech数据集上训练，支持英语语音转文本任务。

Transformers 英语

Wav2vec2 Base 960h

Facebook开发的Wav2Vec2基础模型，在960小时的Librispeech语音音频上进行了预训练和微调，用于英语自动语音识别任务。

Transformers 英语

Wavlm Libri Clean 100h Base

基于microsoft/wavlm-base在LIBRISPEECH_ASR - CLEAN数据集上微调的自动语音识别模型

patrickvonplaten

Hubert Large Ls960 Ft

HuBERT-Large是基于LibriSpeech 960小时语音数据微调的自监督语音表示学习模型，用于自动语音识别任务。

Transformers 英语

Personal Speech To Text Model

基于facebook/wav2vec2-large-robust-ft-swbd-300h模型微调的个人语音转文字模型，针对特定口音优化。

Wav2vec2 Large 960h

Wav2Vec2是Facebook开发的语音识别模型，通过自监督学习从原始音频中学习语音表示，并在LibriSpeech数据集上微调，实现高精度语音转录。

Transformers 英语

Data2vec Audio Base 960h

Data2Vec是一个通用的自监督学习框架，适用于语音、视觉和语言处理。该模型是基于LibriSpeech 960小时语音数据预训练和微调的语音识别模型。

Transformers 英语

Simpleoier Librispeech Asr Train Asr Conformer7 Wavlm Large Raw En Bpe5000 Sp

基于ESPnet框架训练的自动语音识别(ASR)模型，使用Conformer架构和WavLM大型预训练模型，在LibriSpeech数据集上训练。

语音识别英语

Wavlm Libri Clean 100h Base Plus

基于microsoft/wavlm-base-plus在LIBRISPEECH_ASR - CLEAN数据集上微调的自动语音识别模型

patrickvonplaten

Wav2vec2 Large 960h Lv60 Self

Facebook开发的Wav2Vec2大模型，基于960小时Libri-Light和Librispeech语音数据预训练和微调，采用自训练目标，在LibriSpeech测试集上达到SOTA效果。

语音识别英语

Wav2vec2 Large 960h Lv60

Wav2Vec2是一个强大的语音识别模型，通过自监督学习从原始音频中提取特征，并在有限标记数据下实现高性能语音识别。

语音识别英语

Hubert Xlarge Ls960 Ft

基于Librispeech 960小时语音数据微调的Hubert超大规模语音识别模型，在LibriSpeech测试集上WER仅为1.8

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24