低延迟处理

# 低延迟处理

TEN VAD 是一个低延迟、轻量级、高性能的流式语音活动检测系统，适用于实时语音处理场景。

语音识别其他

Erax WoW Turbo V1.1

专为越南语优化的Whisper Large-v3 Turbo语音识别模型，支持多语言，具有极速响应和高准确度

Transformers 其他

Erax WoW Turbo V1.0

专为越南语优化的Whisper Large-v3 Turbo语音识别模型，支持多语言实时转录

Transformers 其他

Omniparser V2.0

OmniParser是一款通用屏幕解析工具，能够将UI截图解释/转换为结构化格式，以提升基于LLM的UI代理性能。

图像生成文本

Llava Mini Llama 3.1 8b

LLaVA-Mini是一款高效的多模态大模型，通过仅使用1个视觉令牌表示图像，显著提升了图像和视频理解的效率。

图像生成文本

VITA-1.5是一个多模态交互模型，旨在实现GPT-4o级别的实时视觉与语音交互能力。

视频文本转文本

Speaker Diarization V1

这是一个基于幂集多类交叉熵损失的说话人分割模型，能够处理10秒单声道音频，输出说话人分割结果。

说话人处理

这是一个基于RVC（Retrieval-based Voice Conversion）技术的语音转换模型，可以将输入音频转换为皮卡丘风格的语音。

这是一个RVC（Retrieval-based Voice Conversion）模型，用于音频转音频任务。

这是一个RVC（Retrieval-based Voice Conversion）模型，用于音频到音频的转换任务。

Todoroki2333333

这是一个RVC（Retrieval-based Voice Conversion）模型，用于音频到音频的转换任务。

这是一个基于 RVC (Retrieval-based Voice Conversion) 技术的语音转换模型，可以将输入音频转换为海绵宝宝的声音。

这是一个基于RVC（Retrieval-based Voice Conversion）技术的语音转换模型，可以将源语音转换为目标语音风格。

这是一个RVC（Retrieval-based Voice Conversion）模型，用于音频转音频任务。

这是一个基于RVC（Retrieval-Based Voice Conversion）技术的语音转换模型，可将输入音频转换为坎耶·韦斯特的声音风格。

这是一个基于RVC（Retrieval-Based Voice Conversion）技术的音频转换模型，专门用于将输入音频转换为贾斯汀·比伯（Justin Bieber）风格的语音。

这是一个基于RVC（Retrieval-Based Voice Conversion）技术的语音转换模型，能够将输入音频转换为特定角色的声音。

Chester Bennington RVC 1000 Epochs

这是一个基于RVC（实时语音转换）技术的模型，专门用于将输入语音转换为Chester Bennington风格的语音。

这是一个RVC（Retrieval-Based Voice Conversion）语音转换模型，用于音频到音频的转换任务。

实时语音转换模型，支持航海等场景的实时语音转换

这是一个RVC（Retrieval-Based Voice Conversion）模型，用于音频到音频的转换任务。

Wsj0 2mix Skim Small Causal

这是一个基于ESPnet框架训练的语音增强模型，专门用于处理wsj0_2mix数据集中的混合语音信号分离任务。

音频增强英语

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V5

基于wav2vec2-large-xlsr-53的自动语音识别模型，在GARY109/AI_LIGHT_DANCE数据集上微调

Waynehills STT Doogie Server

基于Doogie/Waynehills-STT-doogie-server微调的语音识别模型

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24