长音频处理

# 长音频处理

Whisper Large V3 Turbo

Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型，在超过500万小时的标记数据上训练，具有强大的零样本泛化能力。Turbo版本是原版的修剪微调版本，解码层从32层减少到4层，速度大幅提升但质量略有下降。

Transformers 支持多种语言

Whisper Large V3

Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型，支持多种语言

Safetensors 支持多种语言

轻量级音频模型，擅长语音识别、音频理解及执行音频指令等多元任务

音频生成文本

Transformers 英语

Quantum_STT 是一种先进的自动语音识别（ASR）和语音翻译模型，基于大规模弱监督训练，支持多种语言和任务。

Transformers 支持多种语言

Whisper Large V3 Turbo Gguf

Whisper large-v3-turbo 是基于 Whisper large-v3 的剪枝微调版本，解码层数从32减少到4，速度大幅提升但质量略有下降。

语音识别支持多种语言

Whisper Large V3 Vaani Hindi

基于OpenAI的Whisper-Large-V3模型微调的印地语语音识别模型，训练数据包含约718小时的印地语转录语音

Whisper Small Tel

基于OpenAI Whisper-large-v2在泰卢固语音频数据集上微调的语音识别模型

Transformers 其他

Whisper Large V3 Turbo

Whisper large-v3-turbo 是 OpenAI 提出的自动语音识别和语音翻译模型，基于大规模弱监督训练，支持多种语言。

Transformers 支持多种语言

Chunkformer Large Vie

基于ChunkFormer架构的大规模越南语自动语音识别模型，在约3000小时的越南语公开语音数据上微调，性能优异。

语音识别其他

Distil Large V3.5

Distil-Whisper是OpenAI Whisper-Large-v3的知识蒸馏版本，通过大规模伪标签训练实现高效语音识别。

Transformers 英语

Whisper Large V3 Turbo Common Voice 19 0 Zh TW

基于OpenAI Whisper-large-v3-turbo微调的繁体中文（台湾）自动语音识别模型

Transformers 中文

Whisper Large V3 Turbo Turkish

基于openai/whisper-large-v3-turbo在Common Voice 17.0数据集上微调的土耳其语语音识别模型

Transformers 其他

Whisper Large V3 Turbo

Whisper large-v3-turbo是OpenAI Whisper large-v3的蒸馏版本，解码层从32层减少到4层，速度大幅提升但质量略有下降。

语音识别支持多种语言

Whisper Large V3 Turbo

Whisper是由OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型，经过超过500万小时标记数据的训练，在零样本设置下展现出强大的泛化能力。

Transformers 支持多种语言

Kotoba Whisper V2.0 Faster

适用于CTranslate2的Whisper语音识别模型，专为日语优化，提供高效的语音转文本功能。

语音识别日语

Faster Whisper Large V3 Ru Podlodka Int8

这是基于OpenAI Whisper架构的俄语语音识别模型，专为俄语语音转文本任务优化，并转换为ctranslate2格式以提高推理效率。

语音识别其他

Whisper Tiny En

专为移动部署优化的英文语音识别和翻译模型，由高通实现

Nb Whisper Base

挪威国家图书馆开发的自动语音识别模型，基于OpenAI Whisper架构，支持挪威语和英语转录

Nb Whisper Large

挪威国家图书馆推出的挪威语自动语音识别模型，基于OpenAI的Whisper架构开发，支持多种挪威语方言和英语。

Transformers 支持多种语言

Audio Transcribe

这是一个基于Transformers的自动语音识别(ASR)模型，用于将音频文件转录为文本。

Nb Whisper Large

挪威国家图书馆研发的自动语音识别模型，基于Whisper架构，支持挪威语和英语的语音转录与翻译。

Distil Small.en

Distil-Whisper是Whisper模型的蒸馏版本，速度快6倍，体积缩小49%，在非分布评估集上表现接近1% WER。

Transformers 英语

Whisper Large V3 German

基于Whisper Large v3的德语语音识别微调模型，针对德语语音处理和识别进行了优化

Transformers 德语

Whisper Large V3

Whisper是由OpenAI提出的先进自动语音识别(ASR)和语音翻译模型，在超过500万小时的标注数据上训练，具有强大的跨数据集和跨领域泛化能力。

语音识别支持多种语言

Distil Medium.en

Distil-Whisper是Whisper模型的蒸馏版本，速度比原版快6倍，体积缩小49%，在英语语音识别任务上保持接近原版的性能。

语音识别英语

Distil Large V2

Distil-Whisper是Whisper模型的蒸馏版本，速度提升6倍，体积缩小49%，在非分布评估集上的表现仅相差1% WER。

语音识别英语

Whisper Tamil Large V2

基于OpenAI Whisper-large-v2微调的泰米尔语语音识别模型，在多个公开泰米尔语ASR语料库上训练

语音识别其他

Whisper Medium.en

Whisper是OpenAI开发的自动语音识别(ASR)模型，经过68万小时标注语音数据训练，具有强大的泛化能力。

语音识别英语

Wav2vec2 Large Xls R 300m Bg

基于facebook/wav2vec2-xls-r-300m在Common Voice 8保加利亚语数据集上微调的自动语音识别模型

Transformers 其他

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24