Whisper Small
Apache-2.0
Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型,通过68万小时标注数据训练,具有强大的泛化能力。
语音识别
Safetensors
支持多种语言
W
unsloth
50
1
Whisper Large V3
Apache-2.0
Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,支持多种语言
语音识别
Safetensors
支持多种语言
W
unsloth
4,002
1
Parakeet Tdt Ctc 0.6b Ja
该模型是基于FastConformer架构的日语自动语音识别(ASR)模型,由NVIDIA开发并转换为MLX格式。
语音识别
P
mlx-community
368
1
Gigaam V2 Onnx
MIT
GigaAM v2 是一个自动语音识别(ASR)模型,支持俄语语音转文本任务,提供CTC和RNN-T两种架构。
语音识别
其他
G
istupakov
170
2
Whisper Small Tel
Apache-2.0
基于OpenAI Whisper-large-v2在泰卢固语音频数据集上微调的语音识别模型
语音识别
Transformers

其他
W
sagarchapara
17
1
Kb Whisper Medium
Apache-2.0
瑞典国家图书馆发布的基于超过5万小时瑞典语音训练的Whisper模型,在瑞典语音识别任务上表现优异
语音识别
Transformers

其他
K
KBLab
691
3
Whisper Small Turkish 0
Apache-2.0
基于OpenAI Whisper-small微调的土耳其语语音识别模型
语音识别
Transformers

其他
W
ysdede
14
1
Whisper Large V3 Turbo Shqip
MIT
基于OpenAI Whisper Large v3 Turbo针对阿尔巴尼亚语优化的语音识别模型,支持标准阿尔巴尼亚语及盖格方言
语音识别
Transformers

其他
W
Kushtrim
143
4
Voice Clone Large Finetune Final
Apache-2.0
该模型是基于openai/whisper-large-v3微调的语音克隆模型,主要用于语音识别任务,在评估集上词错误率为15.3572。
语音识别
Transformers

V
neuronbit
37
2
Kotoba Whisper V2.2
Apache-2.0
基于Whisper的日语自动语音识别模型,集成说话人分离和标点符号添加功能
语音识别
Transformers

日语
K
kotoba-tech
22.80k
47
Whisper Large V3 Turbo
基于ONNX格式优化的Whisper大型语音识别模型,专为网页端部署设计
语音识别
Transformers

W
onnx-community
2,988
54
Distil Whisper Large V3 German
Apache-2.0
基于distil-whisper技术的德语语音识别模型,参数量7.56亿,在保持高质量的同时实现更快的推理速度。
语音识别
Transformers

德语
D
primeline
207
15
Belle Whisper Large V3 Zh
Apache-2.0
基于whisper-large-v3微调优化的中文语音识别模型,在多个中文语音基准测试中性能显著提升
语音识别
Transformers

B
BELLE-2
1,666
112
Whisper Native Elderly 9 Dutch
Apache-2.0
基于OpenAI Whisper Large V2模型在荷兰语数据集上微调的语音识别模型,词错误率10.14%
语音识别
Transformers

其他
W
golesheed
22
1
Belle Whisper Large V2 Zh
Apache-2.0
基于whisper-large-v2进行微调的中文语音识别模型,在多个中文语音识别基准测试中实现了30-70%的相对性能提升。
语音识别
Transformers

B
BELLE-2
140
33
Stt Fa Fastconformer Hybrid Large
这是一个用于波斯语自动语音识别(ASR)的混合模型,结合了传感器和CTC解码器损失,基于FastConformer架构优化。
语音识别
其他
S
nvidia
2,398
9
Whisper Large V3 German
Apache-2.0
基于Whisper Large v3的德语语音识别微调模型,针对德语语音处理和识别进行了优化
语音识别
Transformers

德语
W
primeline
8,745
70
Whisper Large V2 Ko
Apache-2.0
基于OpenAI Whisper-large-v2微调的韩语自动语音识别(ASR)模型,在韩语数据集上表现出色
语音识别
Transformers

韩语
W
byoussef
94
22
Englishspeechtotext
Apache-2.0
基于facebook/wav2vec2-xls-r-300m微调的英语语音识别模型
语音识别
Transformers

E
Foxasdf
24
1
Whisper Large V2 Mix Jp
Apache-2.0
基于OpenAI Whisper-large-v2模型在日语语音数据集上微调的自动语音识别(ASR)模型
语音识别
Transformers

W
vumichien
93
9
Whisper Large V2 Pl V2
基于Whisper Large v2在波兰语数据集上微调的自动语音识别模型,支持波兰语语音转文本任务。
语音识别
Transformers

其他
W
bardsai
217
6
Whisper Large Sme
Apache-2.0
基于Whisper-large-v2微调的北萨米语语音识别模型,在测试集上词错误率为24.91%
语音识别
Transformers

其他
W
NbAiLab
40
5
Whisper Medium Jp
Apache-2.0
基于openai/whisper-medium在common_voice_11_0数据集上微调的日语语音识别模型
语音识别
Transformers

日语
W
vumichien
4,542
25
Whisper Large
Apache-2.0
Whisper是一个用于自动语音识别(ASR)和语音翻译的预训练模型,在68万小时标注数据上训练,具有强大的泛化能力。
语音识别
支持多种语言
W
openai
175.34k
512
Whisper Medium
Apache-2.0
Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型,经过68万小时标注数据训练,具有强大的跨领域泛化能力。
语音识别
支持多种语言
W
openai
394.31k
239
Assignment1 Francesco
MIT
基于语音到文本转换器(S2T)训练的自动语音识别(ASR)模型,专为英语语音识别设计
语音识别
Transformers

英语
A
Classroom-workshop
22
0
Stt Kr Conformer Transducer Large
这是一个基于Conformer-Transducer架构的大规模韩语自动语音识别模型,在Ksponspeech数据集上训练,适用于韩语语音转录任务。
语音识别
其他
S
eesungkim
129
9
Wav2vec2 Xls R 300m Ur Cv9 With Lm
Apache-2.0
该模型是基于facebook/wav2vec2-xls-r-300m在乌尔都语语音数据集上微调的自动语音识别(ASR)模型
语音识别
Transformers

其他
W
anuragshas
18
1
Wav2vec2 Russian
基于wav2vec2架构的俄语语音识别模型,识别结果可通过配套文本纠错网络进行后处理
语音识别
Transformers

W
UrukHan
100
8
ASCEND Dataset Model
Apache-2.0
基于facebook/wav2vec2-xls-r-300m微调的语音识别模型,在ASCEND数据集上训练
语音识别
Transformers

A
GleamEyeBeast
22
0
Wav2vec2 Punjabi Stt
这是一个基于Wav2Vec2架构的旁遮普语语音识别模型,能够将旁遮普语语音转换为文本。
语音识别
Transformers

W
addy88
17
1
Wav2vec2 Urdu Stt
这是一个基于Wav2Vec2架构的乌尔都语语音识别模型,能够将乌尔都语语音转换为文本。
语音识别
Transformers

W
addy88
145
0
Wav2vec2 Gpt2 Wandb Grid Search
基于LibriSpeech数据集训练的自动语音识别(ASR)模型
语音识别
Transformers

W
sanchit-gandhi
13
0
Wav2vec2 Base 10k Voxpopuli Ft Nl
基于Facebook Wav2Vec2架构的语音识别模型,在VoxPopuli语料库的10K未标记荷兰语数据上预训练,并在荷兰语转录数据上微调。
语音识别
Transformers

其他
W
facebook
28
0
Asr Wav2vec2 Commonvoice En
Apache-2.0
这是一个基于CommonVoice英语数据集训练的端到端自动语音识别系统,结合了wav2vec 2.0预训练模型和CTC解码器。
语音识别
英语
A
speechbrain
681
12
Wav2vec2 Base Libir Zenodo
Apache-2.0
该模型是基于facebook/wav2vec2-base-960h在未知数据集上微调的语音识别模型,主要用于自动语音识别任务。
语音识别
Transformers

W
samantharhay
25
0
Wav2vec2 Base 10k Voxpopuli Ft Hr
基于Facebook Wav2Vec2架构的语音识别模型,使用VoxPopuli语料库预训练并在克罗地亚语数据上微调
语音识别
Transformers

其他
W
facebook
20
0
Wav2vec2 Kannada Stt
一个基于Wav2Vec2架构的卡纳达语语音识别模型,可直接将卡纳达语语音转换为文本。
语音识别
Transformers

W
addy88
96
1
S2t Medium Librispeech Asr
MIT
一个用于自动语音识别(ASR)的语音到文本转换器(S2T)模型,基于序列到序列转换器架构
语音识别
Transformers

英语
S
facebook
1,086
9
Galician Xlsr
Apache-2.0
该模型是基于facebook/wav2vec2-xls-r-300m在加利西亚语数据集上微调的自动语音识别模型,在Common Voice 8.0测试集上取得了11.31%的WER。
语音识别
Transformers

其他
G
Akashpb13
110
1
- 1
- 2
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文