端到端模型
Yolov10s
YOLOv10是清华大学提出的实时端到端目标检测模型,在速度和精度上均有显著提升。
目标检测
Safetensors
Y
jameslahm
907
5
Paraformer Large
Apache-2.0
Paraformer 是一种创新的非自回归端到端语音识别模型,相比传统自回归模型具有显著优势,能够并行生成整句目标文本,特别适合利用GPU进行并行推理。
语音识别
中文
P
funasr
43
45
Nick Asr LID
基于未知数据集训练的自动语音识别模型,支持语言识别任务
语音识别
Transformers
N
ntoldalagi
28
0
Kan Bayashi Csj Asr Train Asr Transformer Raw Char Sp Valid.acc.ave
这是一个基于ESPnet框架训练的日语自动语音识别(ASR)模型,使用CSJ数据集训练,采用Transformer架构。
语音识别
日语
K
espnet
13
0
Speaker Segmentation
MIT
基于pyannote.audio的说话人分割模型,用于检测音频中的说话人变化和语音活动
说话人处理
S
pyannote
182
33
Kan Bayashi Ljspeech Tacotron2
基于ESPnet框架训练的Tacotron2文本转语音模型,使用LJSpeech数据集
语音合成
英语
K
espnet
40
3
Kan Bayashi Csmsc Vits
这是一个基于ESPnet2框架训练的文本转语音(TTS)模型,使用VITS架构,支持中文普通话。
语音合成
中文
K
espnet
37
0
Overlapped Speech Detection
MIT
一个用于检测音频中重叠语音的预训练模型,能够识别两个或更多说话人同时活跃的时间段。
说话人处理
O
pyannote
144.68k
35
Segmentation
MIT
一个用于语音活动检测、重叠语音检测和说话人分割的音频处理模型
说话人处理
S
pyannote
9.2M
579
S2t Small Covost2 Fr En St
MIT
一个基于Transformer的端到端语音翻译模型,专为法语到英语的语音翻译任务设计
语音识别
Transformers
支持多种语言
S
facebook
18
0
Voice Activity Detection
MIT
基于pyannote.audio 2.1版本的语音活动检测模型,用于识别音频中的语音活动时间段
语音识别
V
pyannote
7.7M
181
S2t Medium Mustc Multilingual St
MIT
基于Transformer的端到端多语言语音翻译模型,支持英语到多种语言的语音翻译
语音识别
Transformers
支持多种语言
S
facebook
7,322
6