英语语音识别

# 英语语音识别

轻量级音频模型，擅长语音识别、音频理解及执行音频指令等多元任务

音频生成文本

Transformers 英语

Whisper Custom Small

基于 OpenAI Whisper 架构的小型语音识别模型，专注于英语语音转文本任务。

语音识别英语

Wav2vec2 Tellmate

专为国际象棋坐标识别优化的语音识别模型，基于近2,500个英语象棋坐标音频文件微调

Transformers 支持多种语言

Whisper Base.en

Whisper是一个通用的语音识别模型，由OpenAI训练。该模型基于大规模弱监督训练，支持多种语言的语音转录。

Deepfake Audio Detection

基于facebook/wav2vec2-base微调的深度伪造音频检测模型，在评估集上准确率达95.45%

Parakeet Tdt Ctc 1.1b

Parakeet TDT-CTC 1.1B 是一个自动语音识别模型，能够转录带有标点和大小写的英文语音，由NVIDIA NeMo和Suno.ai联合开发。

语音识别英语

Whisper Medicalv1

Distil-Whisper是Whisper large-v3的知识蒸馏版本，专注于英语语音识别，提供更快的推理速度同时保持接近原始模型的准确性。

语音识别英语

Wav2vec2 Bert CV16 En

基于w2v-bert-2.0在Common Voice 16.0英文数据集上微调的自动语音识别(ASR)模型

Transformers 英语

Distil Small.en

Distil-Whisper是Whisper模型的蒸馏版本，速度快6倍，体积缩小49%，在非分布评估集上表现接近1% WER。

Transformers 英语

Faster Whisper Small.en

基于OpenAI Whisper small.en模型的CTranslate2转换版本，用于高效语音识别

语音识别英语

Faster Whisper Medium.en

这是OpenAI Whisper medium.en模型的CTranslate2转换版本，用于高效的自动语音识别任务。

语音识别英语

Distil Medium.en

Distil-Whisper是Whisper模型的蒸馏版本，速度比原版快6倍，体积缩小49%，在英语语音识别任务上保持接近原版的性能。

语音识别英语

Distil Large V2

Distil-Whisper是Whisper模型的蒸馏版本，速度提升6倍，体积缩小49%，在非分布评估集上的表现仅相差1% WER。

语音识别英语

Wav2vec2 Base 960h

基于Facebook wav2vec2-base-960h模型的ONNX格式转换版本，专为Transformers.js设计，支持浏览器端语音识别

Wav2vec2 Large Xlsr 53 English

基于wav2vec 2.0架构的大规模语音识别模型，支持英语语音转文本

一个支持英语自动语音识别(ASR)的序列到序列模型，能够输出规范化文本、标注时间戳以及多说话人分段。

Transformers 英语

Whisper Medium.en

Whisper是OpenAI开发的自动语音识别(ASR)模型，经过68万小时标注语音数据训练，具有强大的泛化能力。

语音识别英语

Whisper Small.en

Whisper是一个预训练的自动语音识别(ASR)模型，在68万小时的标注数据上训练，展现出强大的泛化能力。

语音识别英语

Whisper Base.en

Whisper是一个强大的自动语音识别模型，经过68万小时的数据训练，具备优异的泛化能力。

语音识别英语

Whisper Tiny.en

Whisper是一个预训练的自动语音识别(ASR)模型，在68万小时标注数据上训练，具有强大的泛化能力。

语音识别英语

Exp W2v2t En Unispeech Sat S459

基于微软UniSpeech-SAT-Large模型微调的英语语音识别模型，支持16kHz采样率的语音输入。

Transformers 英语

Exp W2v2t En Vp Nl S281

基于facebook/wav2vec2-large-nl-voxpopuli模型微调的英语语音识别模型，使用Common Voice 7.0训练集进行训练。

Transformers 英语

Exp W2v2t En No Pretraining S289

这是一个针对英语语音识别任务的模型，基于随机初始化的wav2vec2架构，使用Common Voice 7.0数据集进行微调。

Transformers 英语

Wav2vec2 Large Xlsr 53 Enlgish FT ASCEND Colab

该模型是基于jonatasgrosman/wav2vec2-large-xlsr-53-english在ascend数据集上微调的语音识别模型。

Assignment1 Omar

Wav2Vec2是一个基于自监督学习的语音识别模型，在LibriSpeech 960小时语音数据上预训练和微调，支持英语语音转录。

Transformers 英语

Classroom-workshop

Xtreme S Xlsr 300m Voxpopuli En

该模型是基于facebook/wav2vec2-xls-r-300m在GOOGLE/XTREME_S - VOXPOPULI.EN数据集上微调的语音识别模型，支持英语语音转文本任务。

Transformers 英语

Ascend With English

基于timit_asr数据集对ascend模型进行微调的英语语音识别模型

Wav2vec2 2 Gpt2 Regularisation

这是一个基于 LibriSpeech 数据集训练的自动语音识别(ASR)模型，能够将英语语音转换为文本。

Wav2vec2 2 Bart Large No Adapter

该模型是基于LibriSpeech ASR数据集训练的自动语音识别(ASR)模型，能够将英语语音转换为文本。

基于facebook/wav2vec2-large-xlsr-53在英语通用语音数据集上微调的自动语音识别模型，支持16kHz采样率的英语语音输入。

语音识别英语

基于 LibriSpeech ASR 数据集训练的自动语音识别模型，用于将英语语音转换为文本。

Wav2vec2 Base Repro Timit

该模型是基于patrickvonplaten/wav2vec2-base-repro-960h-libri-85k-steps在TIMIT_ASR - NA数据集上微调的自动语音识别模型。

patrickvonplaten

Wav2vec2 2 Bert Large No Adapter

基于LibriSpeech数据集训练的自动语音识别(ASR)模型，用于将英语语音转换为文本

Unispeech Large 1500h Cv Timit

该模型是基于microsoft/unispeech-large-1500h-cv在TIMIT_ASR数据集上微调得到的自动语音识别模型，在评估集上取得了21.96%的词错误率(WER)。

patrickvonplaten

基于microsoft/wavlm-base微调的英语自动语音识别(ASR)模型，在english_ASR - CLEAN数据集上训练，词错误率(WER)为0.0773。

anjulRajendraSharma

W2v Timit Ft 4001

基于Wav2Vec 2.0架构的语音识别模型，在TIMIT数据集上微调，适用于英语语音转文本任务

Unispeech Sat Base Plus Timit Ft

基于microsoft/unispeech-sat-base-plus在TIMIT_ASR数据集上微调的自动语音识别(ASR)模型

patrickvonplaten

Wav2vec2 Librispeech Clean 100h Demo Dist

基于facebook/wav2vec2-large-lv60在LIBRISPEECH_ASR-CLEAN数据集上微调的语音识别模型

patrickvonplaten

Wav2vec2 Xls R 300m English

XLS-R-300M是基于facebook/wav2vec2-xls-r-300m在librispeech_asr数据集上微调的英语自动语音识别模型，在LibriSpeech测试集上取得了12.29%的词错误率。

Transformers 英语

Wav2vec2 2 Bert Large No Adapter Frozen Enc

该模型是基于librispeech_asr数据集训练的语音识别模型，在评估集上取得了2.0133的词错误率(WER)。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24