高精度转录
Whisper Small
Apache-2.0
Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型,通过68万小时标注数据训练,具有强大的泛化能力。
语音识别
Safetensors
支持多种语言
W
unsloth
50
1
Whisper Large V3
Apache-2.0
Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,支持多种语言
语音识别
Safetensors
支持多种语言
W
unsloth
4,002
1
Parakeet Tdt Ctc 0.6b Ja
该模型是基于FastConformer架构的日语自动语音识别(ASR)模型,由NVIDIA开发并转换为MLX格式。
语音识别
P
mlx-community
368
1
Gigaam V2 Onnx
MIT
GigaAM v2 是一个自动语音识别(ASR)模型,支持俄语语音转文本任务,提供CTC和RNN-T两种架构。
语音识别
其他
G
istupakov
170
2
Whisper Small Tel
Apache-2.0
基于OpenAI Whisper-large-v2在泰卢固语音频数据集上微调的语音识别模型
语音识别
Transformers
其他
W
sagarchapara
17
1
Kb Whisper Medium
Apache-2.0
瑞典国家图书馆发布的基于超过5万小时瑞典语音训练的Whisper模型,在瑞典语音识别任务上表现优异
语音识别
Transformers
其他
K
KBLab
691
3
Whisper Small Turkish 0
Apache-2.0
基于OpenAI Whisper-small微调的土耳其语语音识别模型
语音识别
Transformers
其他
W
ysdede
14
1
Whisper Large V3 Turbo Shqip
MIT
基于OpenAI Whisper Large v3 Turbo针对阿尔巴尼亚语优化的语音识别模型,支持标准阿尔巴尼亚语及盖格方言
语音识别
Transformers
其他
W
Kushtrim
143
4
Voice Clone Large Finetune Final
Apache-2.0
该模型是基于openai/whisper-large-v3微调的语音克隆模型,主要用于语音识别任务,在评估集上词错误率为15.3572。
语音识别
Transformers
V
neuronbit
37
2
Kotoba Whisper V2.2
Apache-2.0
基于Whisper的日语自动语音识别模型,集成说话人分离和标点符号添加功能
语音识别
Transformers
日语
K
kotoba-tech
22.80k
47
Whisper Large V3 Turbo
基于ONNX格式优化的Whisper大型语音识别模型,专为网页端部署设计
语音识别
Transformers
W
onnx-community
2,988
54
Distil Whisper Large V3 German
Apache-2.0
基于distil-whisper技术的德语语音识别模型,参数量7.56亿,在保持高质量的同时实现更快的推理速度。
语音识别
Transformers
德语
D
primeline
207
15
Belle Whisper Large V3 Zh
Apache-2.0
基于whisper-large-v3微调优化的中文语音识别模型,在多个中文语音基准测试中性能显著提升
语音识别
Transformers
B
BELLE-2
1,666
112
Whisper Native Elderly 9 Dutch
Apache-2.0
基于OpenAI Whisper Large V2模型在荷兰语数据集上微调的语音识别模型,词错误率10.14%
语音识别
Transformers
其他
W
golesheed
22
1
Belle Whisper Large V2 Zh
Apache-2.0
基于whisper-large-v2进行微调的中文语音识别模型,在多个中文语音识别基准测试中实现了30-70%的相对性能提升。
语音识别
Transformers
B
BELLE-2
140
33
Stt Fa Fastconformer Hybrid Large
这是一个用于波斯语自动语音识别(ASR)的混合模型,结合了传感器和CTC解码器损失,基于FastConformer架构优化。
语音识别
其他
S
nvidia
2,398
9
Whisper Large V3 German
Apache-2.0
基于Whisper Large v3的德语语音识别微调模型,针对德语语音处理和识别进行了优化
语音识别
Transformers
德语
W
primeline
8,745
70
Whisper Large V2 Ko
Apache-2.0
基于OpenAI Whisper-large-v2微调的韩语自动语音识别(ASR)模型,在韩语数据集上表现出色
语音识别
Transformers
韩语
W
byoussef
94
22
Englishspeechtotext
Apache-2.0
基于facebook/wav2vec2-xls-r-300m微调的英语语音识别模型
语音识别
Transformers
E
Foxasdf
24
1
Whisper Large V2 Mix Jp
Apache-2.0
基于OpenAI Whisper-large-v2模型在日语语音数据集上微调的自动语音识别(ASR)模型
语音识别
Transformers
W
vumichien
93
9
Whisper Large V2 Pl V2
基于Whisper Large v2在波兰语数据集上微调的自动语音识别模型,支持波兰语语音转文本任务。
语音识别
Transformers
其他
W
bardsai
217
6
Whisper Large Sme
Apache-2.0
基于Whisper-large-v2微调的北萨米语语音识别模型,在测试集上词错误率为24.91%
语音识别
Transformers
其他
W
NbAiLab
40
5
Whisper Medium Jp
Apache-2.0
基于openai/whisper-medium在common_voice_11_0数据集上微调的日语语音识别模型
语音识别
Transformers
日语
W
vumichien
4,542
25
Whisper Large
Apache-2.0
Whisper是一个用于自动语音识别(ASR)和语音翻译的预训练模型,在68万小时标注数据上训练,具有强大的泛化能力。
语音识别
支持多种语言
W
openai
175.34k
512
Whisper Medium
Apache-2.0
Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型,经过68万小时标注数据训练,具有强大的跨领域泛化能力。
语音识别
支持多种语言
W
openai
394.31k
239
Assignment1 Francesco
MIT
基于语音到文本转换器(S2T)训练的自动语音识别(ASR)模型,专为英语语音识别设计
语音识别
Transformers
英语
A
Classroom-workshop
22
0
Stt Kr Conformer Transducer Large
这是一个基于Conformer-Transducer架构的大规模韩语自动语音识别模型,在Ksponspeech数据集上训练,适用于韩语语音转录任务。
语音识别
其他
S
eesungkim
129
9
Wav2vec2 Xls R 300m Ur Cv9 With Lm
Apache-2.0
该模型是基于facebook/wav2vec2-xls-r-300m在乌尔都语语音数据集上微调的自动语音识别(ASR)模型
语音识别
Transformers
其他
W
anuragshas
18
1
Wav2vec2 Russian
基于wav2vec2架构的俄语语音识别模型,识别结果可通过配套文本纠错网络进行后处理
语音识别
Transformers
W
UrukHan
100
8
ASCEND Dataset Model
Apache-2.0
基于facebook/wav2vec2-xls-r-300m微调的语音识别模型,在ASCEND数据集上训练
语音识别
Transformers
A
GleamEyeBeast
22
0
Wav2vec2 Punjabi Stt
这是一个基于Wav2Vec2架构的旁遮普语语音识别模型,能够将旁遮普语语音转换为文本。
语音识别
Transformers
W
addy88
17
1
Wav2vec2 Urdu Stt
这是一个基于Wav2Vec2架构的乌尔都语语音识别模型,能够将乌尔都语语音转换为文本。
语音识别
Transformers
W
addy88
145
0
Wav2vec2 Gpt2 Wandb Grid Search
基于LibriSpeech数据集训练的自动语音识别(ASR)模型
语音识别
Transformers
W
sanchit-gandhi
13
0
Wav2vec2 Base 10k Voxpopuli Ft Nl
基于Facebook Wav2Vec2架构的语音识别模型,在VoxPopuli语料库的10K未标记荷兰语数据上预训练,并在荷兰语转录数据上微调。
语音识别
Transformers
其他
W
facebook
28
0
Asr Wav2vec2 Commonvoice En
Apache-2.0
这是一个基于CommonVoice英语数据集训练的端到端自动语音识别系统,结合了wav2vec 2.0预训练模型和CTC解码器。
语音识别
英语
A
speechbrain
681
12
Wav2vec2 Base Libir Zenodo
Apache-2.0
该模型是基于facebook/wav2vec2-base-960h在未知数据集上微调的语音识别模型,主要用于自动语音识别任务。
语音识别
Transformers
W
samantharhay
25
0
Wav2vec2 Base 10k Voxpopuli Ft Hr
基于Facebook Wav2Vec2架构的语音识别模型,使用VoxPopuli语料库预训练并在克罗地亚语数据上微调
语音识别
Transformers
其他
W
facebook
20
0
Wav2vec2 Kannada Stt
一个基于Wav2Vec2架构的卡纳达语语音识别模型,可直接将卡纳达语语音转换为文本。
语音识别
Transformers
W
addy88
96
1
S2t Medium Librispeech Asr
MIT
一个用于自动语音识别(ASR)的语音到文本转换器(S2T)模型,基于序列到序列转换器架构
语音识别
Transformers
英语
S
facebook
1,086
9
Galician Xlsr
Apache-2.0
该模型是基于facebook/wav2vec2-xls-r-300m在加利西亚语数据集上微调的自动语音识别模型,在Common Voice 8.0测试集上取得了11.31%的WER。
语音识别
Transformers
其他
G
Akashpb13
110
1