语音转文本

# 语音转文本

Whisper Finetuned Amharic

基于openai/whisper-small微调的阿姆哈拉语语音识别模型，在评估集上词错误率为2.0538%

Wav2vec2 Large Xls R 300m Ru

该模型是基于facebook/wav2vec2-xls-r-300m在common_voice_17_0数据集上微调的俄语自动语音识别(ASR)模型，词错误率(WER)为0.195。

Whisper Hindi2Hinglish Swift

基于Whisper架构优化的印地语-印地英语混合语音识别模型，专为印度口音和噪声环境优化

Transformers 支持多种语言

Moonshine Base ONNX

基于Moonshine基础模型的ONNX格式自动语音识别模型，支持高效推理

Whisper Large V3 Turbo Arabic

基于transformers库，在common_voice_11_0数据集上对openai/whisper-large-v3-turbo进行微调后的版本，专为阿拉伯语语音识别优化。

Whisper Large V3 Turbo

基于ONNX格式优化的Whisper大型语音识别模型，专为网页端部署设计

W2V2 BERT Withlm Malayalam

基于facebook/w2v-bert-2.0微调的马拉雅拉姆语自动语音识别模型，在多个马拉雅拉姆语数据集上训练，并使用了KENLM库训练的三元语言模型。

Transformers 其他

Whisper是一个自动语音识别(ASR)系统，由OpenAI训练，支持多语言语音转录。

Faster Distil Whisper Large V3

Whisper Large v3的蒸馏版本，用于高效自动语音识别(ASR)

语音识别英语

Distil Whisper Large V3

该模型是从GGML格式的distil-whisper/distil-large-v3-ggml转换至Ratchet自定义格式的版本，主要用于语音识别任务。

这是将openai/whisper-tiny的GGML格式转换为Ratchet自定义格式的版本

Language Detector

基于openai/whisper-small微调的语言检测模型，在评估集上准确率达96.47%

Audio Transcribe

这是一个基于Transformers的自动语音识别(ASR)模型，用于将音频文件转录为文本。

Audiosangraha Audio To Text

基于openai/whisper-small微调的语音转文本模型，支持音频翻译和文本生成任务。

Whisper Large V3 Ft Cv16 Mn

基于OpenAI Whisper Large V3模型在Common Voice 16.0数据集上微调的语音识别模型

Whisper Large V3

Whisper-large-v3是OpenAI开源的自动语音识别(ASR)模型，支持多种语言的语音转文字任务。

Speecht5 Tts Marathi

这是一个用于马拉地语语音处理的模型，可能涉及语音识别或语音合成任务。

Whisper Large V2 Spanish

基于OpenAI Whisper-large-v2模型在Common Voice 13.0西班牙语数据集上微调的语音识别模型

Whisper Medium 是 OpenAI 开发的中等规模语音识别模型，支持多种语言的自动语音识别（ASR）任务。

Whisper Small 是 OpenAI 开发的一个小型自动语音识别（ASR）模型，能够将语音转换为文本。

Whisper是一个自动语音识别(ASR)系统，由OpenAI训练，支持多种语言的语音转文本任务。

Whisper Tiny 是 OpenAI 开源的轻量级语音识别模型，适用于网页端部署。

Faster Whisper Tiny

这是OpenAI Whisper-tiny模型的CTranslate2转换版本，用于高效的语音识别任务。

语音识别支持多种语言

基于LibriSpeech数据集微调的SpeechT5自动语音识别模型，支持将语音转换为文本。

Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型，经过68万小时标注数据训练，具有强大的泛化能力。

语音识别支持多种语言

Wav2vec2 Large 960h Lv60 Self 4 Gram Fine Tune Real 29 Jun

该模型是基于facebook/wav2vec2-large-960h-lv60-self在uob_singlish数据集上微调的语音识别模型，支持新加坡英语识别。

Wav2vec2 Large Xls R 300m Bn Colab

该模型是基于facebook/wav2vec2-xls-r-300m在common_voice_9_0数据集上微调的语音识别模型，支持孟加拉语。

Wav2vec2 Xls R 300m Mrbrown Finetune1

基于facebook/wav2vec2-xls-r-300m预训练模型，使用uob_singlish数据集进行微调的语音识别模型

Wav2vec2 Large Multilang Cv Ru

该模型是基于facebook/wav2vec2-large-xlsr-53在common_voice数据集上微调的版本，主要用于俄语语音识别任务。

Wav2vec2 Large Xls R 300m Ta Colab

该模型是基于facebook/wav2vec2-xls-r-300m在common_voice数据集上微调的版本，主要用于泰米尔语的语音识别任务。

84rry Xlsr 53 Arabic

该模型是基于facebook/wav2vec2-large-xlsr-53在通用语音数据集上微调的阿拉伯语语音识别模型

Wav2vec2 Large Xls R 300m Turkish Colab Common Voice 8 6

这是一个基于wav2vec2架构的土耳其语语音识别模型，在common_voice数据集上微调得到

Wav2vec2 Large Xls R 300m Turkish Colab Common Voice 8 4

该模型是基于Facebook的wav2vec2-xls-r-300m模型，在common_voice土耳其语数据集上微调的语音识别模型。

Dansk Wav2vec21

该模型是基于Siyam/SKYLy在common_voice数据集上微调得到的丹麦语语音识别模型

Wav2vec2 Vorarlbergerisch

基于facebook/wav2vec2-base-960h微调的德语方言语音识别模型，支持奥地利福拉尔贝格地区方言识别

Wav2vec2 Base MIR ST500 ASR 109

基于facebook/wav2vec2-base在MIR_ST500数据集上微调的自动语音识别模型

Wav2vec2 Large Xls R 300m Turkish Colab

这是一个基于Facebook的wav2vec2-xls-r-300m模型在通用语音数据集上微调的土耳其语语音识别模型。

2nd Wav2vec2 L Xls R 300m Turkish Test

该模型是基于facebook/wav2vec2-xls-r-300m在common_voice土耳其语数据集上微调的语音识别模型，在评估集上取得了0.4444的词错误率。

Wav2vec2 Large Xls R 300m Turkish Colab

该模型是基于facebook/wav2vec2-xls-r-300m在common_voice土耳其语数据集上微调的语音识别模型，在评估集上取得了30.95%的词错误率。

Wav2vec2 Common Voice Accents Scotland

该模型是基于facebook/wav2vec2-xls-r-300m在common_voice数据集上微调的版本，专注于苏格兰口音的语音识别。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24