高精度转录

# 高精度转录

Whisper Small Ko Low Qual Voice

基于Whisper-small架构微调的韩语自动语音识别模型，在韩语语音识别任务上表现出色。

Safetensors 韩语

Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型，通过68万小时标注数据训练，具有强大的泛化能力。

Safetensors 支持多种语言

Whisper Large V3

Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型，支持多种语言

Safetensors 支持多种语言

Parakeet Tdt Ctc 0.6b Ja

该模型是基于FastConformer架构的日语自动语音识别(ASR)模型，由NVIDIA开发并转换为MLX格式。

GigaAM v2 是一个自动语音识别（ASR）模型，支持俄语语音转文本任务，提供CTC和RNN-T两种架构。

语音识别其他

Whisper Small Tel

基于OpenAI Whisper-large-v2在泰卢固语音频数据集上微调的语音识别模型

Transformers 其他

Kb Whisper Tiny

瑞典国家图书馆发布的Whisper模型，专为瑞典语语音识别优化，相比OpenAI原版显著降低错误率。

Transformers 其他

Kb Whisper Medium

瑞典国家图书馆发布的基于超过5万小时瑞典语音训练的Whisper模型，在瑞典语音识别任务上表现优异

Transformers 其他

Whisper Small Turkish 0

基于OpenAI Whisper-small微调的土耳其语语音识别模型

Transformers 其他

Whisper Large V3 Turbo Shqip

基于OpenAI Whisper Large v3 Turbo针对阿尔巴尼亚语优化的语音识别模型，支持标准阿尔巴尼亚语及盖格方言

Transformers 其他

Voice Clone Large Finetune Final

该模型是基于openai/whisper-large-v3微调的语音克隆模型，主要用于语音识别任务，在评估集上词错误率为15.3572。

Kotoba Whisper V2.2

基于Whisper的日语自动语音识别模型，集成说话人分离和标点符号添加功能

Transformers 日语

Whisper Large V3 Turbo

基于ONNX格式优化的Whisper大型语音识别模型，专为网页端部署设计

Whisper Large V3 Myanmar

本模型是基于openai/whisper-large-v3在缅甸语语音数据集上微调的自动语音识别模型，专门用于缅甸语语音转录。

Transformers 其他

Wav2vec2 Base Korean

基于Facebook的wav2vec2-base模型微调而来，专门针对韩语语音识别进行了优化，能够将韩语语音准确地转录为文本。

Transformers 韩语

Distil Whisper Large V3 German

基于distil-whisper技术的德语语音识别模型，参数量7.56亿，在保持高质量的同时实现更快的推理速度。

Transformers 德语

Belle Whisper Large V3 Zh

基于whisper-large-v3微调优化的中文语音识别模型，在多个中文语音基准测试中性能显著提升

Whisper Native Elderly 9 Dutch

基于OpenAI Whisper Large V2模型在荷兰语数据集上微调的语音识别模型，词错误率10.14%

Transformers 其他

Nb Whisper Large

挪威国家图书馆研发的自动语音识别模型，基于Whisper架构，支持挪威语和英语的语音转录与翻译。

Belle Whisper Large V2 Zh

基于whisper-large-v2进行微调的中文语音识别模型，在多个中文语音识别基准测试中实现了30-70%的相对性能提升。

Stt Fa Fastconformer Hybrid Large

这是一个用于波斯语自动语音识别(ASR)的混合模型，结合了传感器和CTC解码器损失，基于FastConformer架构优化。

语音识别其他

Whisper Large V3 German

基于Whisper Large v3的德语语音识别微调模型，针对德语语音处理和识别进行了优化

Transformers 德语

Whisper Large V2 Ko

基于OpenAI Whisper-large-v2微调的韩语自动语音识别(ASR)模型，在韩语数据集上表现出色

Transformers 韩语

Englishspeechtotext

基于facebook/wav2vec2-xls-r-300m微调的英语语音识别模型

Whisper Large V2 Mix Jp

基于OpenAI Whisper-large-v2模型在日语语音数据集上微调的自动语音识别(ASR)模型

Whisper Tiny French Cased

本模型是 openai/whisper-tiny 在 mozilla-foundation/common_voice_11_0 fr 数据集上的微调版本，专注于法语语音识别任务。

Transformers 法语

Whisper Large V2 Pl V2

基于Whisper Large v2在波兰语数据集上微调的自动语音识别模型，支持波兰语语音转文本任务。

Transformers 其他

Whisper Large Sme

基于Whisper-large-v2微调的北萨米语语音识别模型，在测试集上词错误率为24.91%

Transformers 其他

Whisper Medium Id

基于openai/whisper-medium在印尼语数据集上微调的语音识别模型，显著提升了印尼语识别准确率

Transformers 其他

Whisper Medium Jp

基于openai/whisper-medium在common_voice_11_0数据集上微调的日语语音识别模型

Transformers 日语

Stt Ru Conformer Transducer Large

这是一个基于Conformer架构的非自回归大型俄语语音识别模型，参数约1.2亿，训练数据约1636小时俄语语音。

语音识别其他

Whisper是一个用于自动语音识别(ASR)和语音翻译的预训练模型，在68万小时标注数据上训练，具有强大的泛化能力。

语音识别支持多种语言

Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型，经过68万小时标注数据训练，具有强大的跨领域泛化能力。

语音识别支持多种语言

Assignment1 Francesco

基于语音到文本转换器(S2T)训练的自动语音识别(ASR)模型，专为英语语音识别设计

Transformers 英语

Classroom-workshop

Stt Kr Conformer Transducer Large

这是一个基于Conformer-Transducer架构的大规模韩语自动语音识别模型，在Ksponspeech数据集上训练，适用于韩语语音转录任务。

语音识别其他

Wav2vec2 Xls R 300m Ur Cv9 With Lm

该模型是基于facebook/wav2vec2-xls-r-300m在乌尔都语语音数据集上微调的自动语音识别(ASR)模型

Transformers 其他

Wav2vec2 Russian

基于wav2vec2架构的俄语语音识别模型，识别结果可通过配套文本纠错网络进行后处理

ASCEND Dataset Model

基于facebook/wav2vec2-xls-r-300m微调的语音识别模型，在ASCEND数据集上训练

Wav2vec2 Urdu Stt

这是一个基于Wav2Vec2架构的乌尔都语语音识别模型，能够将乌尔都语语音转换为文本。

Wav2vec2 Punjabi Stt

这是一个基于Wav2Vec2架构的旁遮普语语音识别模型，能够将旁遮普语语音转换为文本。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24