端到端模型

# 端到端模型

YOLOv10是清华大学提出的实时端到端目标检测模型，在速度和精度上均有显著提升。

Paraformer Large

Paraformer 是一种创新的非自回归端到端语音识别模型，相比传统自回归模型具有显著优势，能够并行生成整句目标文本，特别适合利用GPU进行并行推理。

语音识别中文

基于未知数据集训练的自动语音识别模型，支持语言识别任务

Speaker Segmentation

基于pyannote.audio的说话人分割模型，用于检测音频中的说话人变化和语音活动

说话人处理

Kan Bayashi Csj Asr Train Asr Transformer Raw Char Sp Valid.acc.ave

这是一个基于ESPnet框架训练的日语自动语音识别(ASR)模型，使用CSJ数据集训练，采用Transformer架构。

语音识别日语

Overlapped Speech Detection

一个用于检测音频中重叠语音的预训练模型，能够识别两个或更多说话人同时活跃的时间段。

说话人处理

Kan Bayashi Ljspeech Tacotron2

基于ESPnet框架训练的Tacotron2文本转语音模型，使用LJSpeech数据集

语音合成英语

Kan Bayashi Csmsc Vits

这是一个基于ESPnet2框架训练的文本转语音(TTS)模型，使用VITS架构，支持中文普通话。

语音合成中文

一个用于语音活动检测、重叠语音检测和说话人分割的音频处理模型

说话人处理

S2t Small Covost2 Fr En St

一个基于Transformer的端到端语音翻译模型，专为法语到英语的语音翻译任务设计

Transformers 支持多种语言

S2t Medium Mustc Multilingual St

基于Transformer的端到端多语言语音翻译模型，支持英语到多种语言的语音翻译

Transformers 支持多种语言

Voice Activity Detection

基于pyannote.audio 2.1版本的语音活动检测模型，用于识别音频中的语音活动时间段

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24