Yolov10s
YOLOv10是清华大学提出的实时端到端目标检测模型,在速度和精度上均有显著提升。
目标检测
Safetensors
Y
jameslahm
907
5
Paraformer Large
Apache-2.0
Paraformer 是一种创新的非自回归端到端语音识别模型,相比传统自回归模型具有显著优势,能够并行生成整句目标文本,特别适合利用GPU进行并行推理。
语音识别
中文
P
funasr
43
45
Nick Asr LID
基于未知数据集训练的自动语音识别模型,支持语言识别任务
语音识别
Transformers

N
ntoldalagi
28
0
Kan Bayashi Csj Asr Train Asr Transformer Raw Char Sp Valid.acc.ave
这是一个基于ESPnet框架训练的日语自动语音识别(ASR)模型,使用CSJ数据集训练,采用Transformer架构。
语音识别
日语
K
espnet
13
0
Speaker Segmentation
MIT
基于pyannote.audio的说话人分割模型,用于检测音频中的说话人变化和语音活动
说话人处理
S
pyannote
182
33
Kan Bayashi Ljspeech Tacotron2
基于ESPnet框架训练的Tacotron2文本转语音模型,使用LJSpeech数据集
语音合成
英语
K
espnet
40
3
Kan Bayashi Csmsc Vits
这是一个基于ESPnet2框架训练的文本转语音(TTS)模型,使用VITS架构,支持中文普通话。
语音合成
中文
K
espnet
37
0
Overlapped Speech Detection
MIT
一个用于检测音频中重叠语音的预训练模型,能够识别两个或更多说话人同时活跃的时间段。
说话人处理
O
pyannote
144.68k
35
Segmentation
MIT
一个用于语音活动检测、重叠语音检测和说话人分割的音频处理模型
说话人处理
S
pyannote
9.2M
579
S2t Small Covost2 Fr En St
MIT
一个基于Transformer的端到端语音翻译模型,专为法语到英语的语音翻译任务设计
语音识别
Transformers

支持多种语言
S
facebook
18
0
Voice Activity Detection
MIT
基于pyannote.audio 2.1版本的语音活动检测模型,用于识别音频中的语音活动时间段
语音识别
V
pyannote
7.7M
181
S2t Medium Mustc Multilingual St
MIT
基于Transformer的端到端多语言语音翻译模型,支持英语到多种语言的语音翻译
语音识别
Transformers

支持多种语言
S
facebook
7,322
6
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文