高精度语音识别
Nextvoice
Apache-2.0
NextVoice是由Lamapi开发的开源语音转文字解决方案,支持高质量转录和实时处理。
语音识别
Transformers
其他
N
Lamapi
18
1
Medical Whisper Large V3
Apache-2.0
基于whisper-large-v3微调的医疗场景专用语音识别模型
语音识别
Transformers
英语
M
Na0s
270
5
Whisper Small Medical Speech Recognition
Apache-2.0
基于OpenAI Whisper-small微调的医疗领域语音识别模型,支持医疗场景下的语音转文本任务
语音识别
Transformers
W
hap20
20
3
Parakeet Rnnt 1.1b
Parakeet RNNT 1.1B是由NVIDIA NeMo和Suno.ai联合开发的自动语音识别模型,基于FastConformer Transducer架构,参数约11亿,支持英语语音转录。
语音识别
英语
P
nvidia
13.18k
124
Stt En Fastconformer Transducer Xlarge
NVIDIA FastConformer-Transducer 是一个用于英语自动语音识别(ASR)的高性能模型,采用优化的FastConformer架构和Transducer解码器,参数规模约6.18亿。
语音识别
英语
S
nvidia
106
24
Stt En Fastconformer Ctc Xlarge
NVIDIA FastConformer-CTC XLarge是一个约6亿参数的自动语音识别(ASR)模型,专为英语语音转录设计,采用FastConformer架构和CTC损失训练。
语音识别
英语
S
nvidia
216
2
Stt En Fastconformer Ctc Large
这是一个基于FastConformer架构的大型自动语音识别(ASR)模型,专门用于将英语语音转录为文本。
语音识别
英语
S
nvidia
1,001
12
Stt En Fastconformer Transducer Large
这是一个基于FastConformer架构的大型自动语音识别(ASR)模型,专门用于将英语语音转录为文本。
语音识别
英语
S
nvidia
1,398
7
Whisper Large V2 Japanese 5k Steps
Apache-2.0
基于OpenAI的whisper-large-v2模型在日语CommonVoice数据集上微调的语音识别模型,训练5000步,词错误率0.7449
语音识别
Transformers
日语
W
clu-ling
144
20
Wav2vec2 Large Tedlium
Apache-2.0
基于TEDLIUM语料库微调的Wav2Vec2大型语音识别模型,支持英语语音转文本
语音识别
英语
W
sanchit-gandhi
58
1
Stt En Conformer Transducer Xlarge
这是一个由NVIDIA开发的自动语音识别(ASR)模型,基于Conformer-Transducer架构,拥有约6亿参数,专门用于英语语音转录。
语音识别
英语
S
nvidia
496
54
Asr Wav2vec2 Librispeech
Apache-2.0
这是一个基于LibriSpeech数据集训练的端到端自动语音识别系统,结合了wav2vec 2.0预训练模型和CTC技术,在英语语音识别任务上表现出色。
语音识别
英语
A
speechbrain
1,667
9
Wav2vec2 Large 960h Lv60 Self With Wikipedia Lm
基于Facebook的wav2vec2-large-960h-lv60-self模型,通过增强维基百科语言模型改进的自动语音识别(ASR)系统
语音识别
Transformers
W
gxbag
15
2
Wav2vec2 Conformer Rope Large 100h Ft
Apache-2.0
基于Librispeech 100小时语音数据微调的Wav2Vec2 Conformer模型,采用旋转位置嵌入技术
语音识别
Transformers
英语
W
facebook
99
0
Wav2vec2 Conformer Rope Large 960h Ft
Apache-2.0
该模型整合了旋转位置嵌入技术,基于16kHz采样的语音音频,在960小时的LibriSpeech数据上进行了预训练和精细调优,适用于英语语音识别任务。
语音识别
Transformers
英语
W
facebook
22.02k
10
Wav2vec2 Conformer Rel Pos Large 100h Ft
Apache-2.0
采用相对位置嵌入技术的Wav2Vec2-Conformer大型语音识别模型,基于Librispeech 100小时语音数据微调
语音识别
Transformers
英语
W
facebook
99
0
Wav2vec2 Conformer Rel Pos Large 960h Ft
Apache-2.0
基于16kHz采样语音音频的Wav2Vec2-Conformer模型,采用相对位置嵌入技术,在960小时Librispeech数据上预训练和微调
语音识别
Transformers
英语
W
facebook
1,038
5
Wav2vec2 Large 960h Lv60 Self 4 Gram
Apache-2.0
基于Facebook Wav2Vec2-Large-960h-lv60-self模型,增加了英语4-gram语言模型以提升语音识别准确率
语音识别
英语
W
patrickvonplaten
22
4
Wav2vec2 Base 960h 4 Gram
Apache-2.0
基于Facebook的Wav2Vec2-Base-960h模型,增加了英语4-gram语言模型,用于提高自动语音识别(ASR)的准确率。
语音识别
Transformers
英语
W
patrickvonplaten
19
0
Wav2vec2 Large Xlsr 300m Nepali
这是一个基于Wav2Vec2架构的尼泊尔语语音识别模型,支持将尼泊尔语语音转换为文本。
语音识别
Transformers
W
shniranjan
15
0
Stt En Conformer Ctc Large
这是一个基于Conformer架构的大型自动语音识别(ASR)模型,支持英语语音转录,使用CTC损失函数进行训练。
语音识别
英语
S
nvidia
3,740
24
Data2vec Audio Large 960h
Apache-2.0
Data2Vec是一个通用自监督学习框架,适用于语音、视觉和语言任务。
语音识别
Transformers
英语
D
facebook
2,531
7
Iwslt Asr Wav2vec Large 4500h
基于Wav2Vec2架构的大规模英语自动语音识别模型,在4500小时多源语音数据上微调,支持带语言模型的解码
语音识别
Transformers
英语
I
nguyenvulebinh
27
2
Wav2vec2 Base 960h
Apache-2.0
Wav2Vec2是一个基于自监督学习的语音识别模型,由Facebook开发,在LibriSpeech数据集上训练,支持英语语音转文本任务。
语音识别
Transformers
英语
W
tommy19970714
19
0
Wav2vec Odia Stt
这是一个基于Wav2Vec2架构的奥里亚语(Odia)语音识别模型,能够将奥里亚语语音转换为文本。
语音识别
Transformers
W
addy88
15
0
Wav2vec2 Dogri Stt
这是一个基于Wav2Vec2架构的自动语音识别(ASR)模型,专门用于识别多格拉语(Dogri)的语音内容。
语音识别
Transformers
W
addy88
30
1
Wavlm Libri Clean 100h Large
基于microsoft/wavlm-large在LIBRISPEECH_ASR - CLEAN数据集上微调的自动语音识别模型
语音识别
Transformers
W
patrickvonplaten
8,171
3
Wav2vec2 Base 960h
Apache-2.0
Facebook开发的Wav2Vec2基础模型,在960小时的Librispeech语音音频上进行了预训练和微调,用于英语自动语音识别任务。
语音识别
Transformers
英语
W
facebook
2.1M
331
Wavlm Libri Clean 100h Base
基于microsoft/wavlm-base在LIBRISPEECH_ASR - CLEAN数据集上微调的自动语音识别模型
语音识别
Transformers
W
patrickvonplaten
6,515
1
Simpleoier Librispeech Asr Train Asr Conformer7 Wavlm Large Raw En Bpe5000 Sp
基于ESPnet框架训练的自动语音识别(ASR)模型,使用Conformer架构和WavLM大型预训练模型,在LibriSpeech数据集上训练。
语音识别
英语
S
espnet
66
1
Personal Speech To Text Model
基于facebook/wav2vec2-large-robust-ft-swbd-300h模型微调的个人语音转文字模型,针对特定口音优化。
语音识别
Transformers
P
fractalego
75
6
Wavlm Libri Clean 100h Base Plus
基于microsoft/wavlm-base-plus在LIBRISPEECH_ASR - CLEAN数据集上微调的自动语音识别模型
语音识别
Transformers
W
patrickvonplaten
126.17k
3
Data2vec Audio Base 960h
Apache-2.0
Data2Vec是一个通用的自监督学习框架,适用于语音、视觉和语言处理。
语音识别
Transformers
英语
D
facebook
10.61k
12
Hubert Large Ls960 Ft
Apache-2.0
HuBERT-Large是基于LibriSpeech 960小时语音数据微调的自监督语音表示学习模型,用于自动语音识别任务。
语音识别
Transformers
英语
H
facebook
776.27k
66
Wav2vec2 Large 960h
Apache-2.0
Wav2Vec2是Facebook开发的语音识别模型,通过自监督学习从原始音频中学习语音表示,并在LibriSpeech数据集上微调,实现高精度语音转录。
语音识别
Transformers
英语
W
facebook
77.59k
29
Wav2vec2 Large 960h Lv60
Apache-2.0
Wav2Vec2是一个强大的语音识别模型,通过自监督学习从原始音频中提取特征,并在有限标记数据下实现高性能语音识别。
语音识别
英语
W
facebook
7,011
6
Wav2vec2 Large 960h Lv60 Self
Apache-2.0
Facebook开发的Wav2Vec2大模型,基于960小时Libri-Light和Librispeech语音数据预训练和微调,采用自训练目标,在LibriSpeech测试集上达到SOTA效果。
语音识别
英语
W
facebook
56.00k
146
Hubert Xlarge Ls960 Ft
Apache-2.0
基于Librispeech 960小时语音数据微调的Hubert超大规模语音识别模型,在LibriSpeech测试集上WER仅为1.8
语音识别
Transformers
英语
H
facebook
8,160
14