Speecht5 Asr
MIT
基于LibriSpeech数据集微调的SpeechT5自动语音识别模型,支持将语音转换为文本。
语音识别
Transformers

S
microsoft
12.30k
41
Asr Wav2vec2 Librispeech
Apache-2.0
这是一个基于LibriSpeech数据集训练的端到端自动语音识别系统,结合了wav2vec 2.0预训练模型和CTC技术,在英语语音识别任务上表现出色。
语音识别
英语
A
speechbrain
1,667
9
Assignment1 Francesco
MIT
基于语音到文本转换器(S2T)训练的自动语音识别(ASR)模型,专为英语语音识别设计
语音识别
Transformers

英语
A
Classroom-workshop
22
0
Assignment1 Maria
MIT
s2t-small-librispeech-asr 是一个用于自动语音识别(ASR)的语音到文本转换器(S2T)模型,基于序列到序列的转换器架构。
语音识别
Transformers

英语
A
Classroom-workshop
23
0
Assignment1 Joane
MIT
一个用于自动语音识别(ASR)的语音到文本转换器(S2T)模型
语音识别
Transformers

英语
A
Classroom-workshop
22
0
Assignment1 Jack
MIT
一个用于自动语音识别(ASR)的语音到文本转换器(S2T)模型,基于序列到序列转换器架构
语音识别
Transformers

英语
A
Classroom-workshop
24
0
Assignment1 Jane
MIT
s2t-small-librispeech-asr 是一个用于自动语音识别(ASR)的语音到文本转换器(S2T)模型,基于序列到序列转换器架构。
语音识别
Transformers

英语
A
Classroom-workshop
29
0
Xlsr English
Apache-2.0
基于facebook/wav2vec2-xls-r-300m在librispeech_asr数据集上微调的英语语音识别模型
语音识别
Transformers

X
ashesicsis1
18
0
Wav2vec2 Conformer Rope Large 960h Ft
Apache-2.0
该模型整合了旋转位置嵌入技术,基于16kHz采样的语音音频,在960小时的LibriSpeech数据上进行了预训练和精细调优,适用于英语语音识别任务。
语音识别
Transformers

英语
W
facebook
22.02k
10
Wav2vec2 Conformer Rel Pos Large 960h Ft
Apache-2.0
基于16kHz采样语音音频的Wav2Vec2-Conformer模型,采用相对位置嵌入技术,在960小时Librispeech数据上预训练和微调
语音识别
Transformers

英语
W
facebook
1,038
5
Wav2vec2 Large 960h Lv60 Self 4 Gram
Apache-2.0
基于Facebook Wav2Vec2-Large-960h-lv60-self模型,增加了英语4-gram语言模型以提升语音识别准确率
语音识别
英语
W
patrickvonplaten
22
4
Wav2vec2 Base 960h 4 Gram
Apache-2.0
基于Facebook的Wav2Vec2-Base-960h模型,增加了英语4-gram语言模型,用于提高自动语音识别(ASR)的准确率。
语音识别
Transformers

英语
W
patrickvonplaten
19
0
Wav2vec2 Large 10min Lv60 Self
Apache-2.0
该模型是基于Wav2Vec2架构的大规模语音识别模型,在Libri-Light和Librispeech的10分钟数据上进行了预训练和微调,使用自训练目标进行训练,适用于16kHz采样率的语音音频。
语音识别
Transformers

英语
W
Splend1dchan
177
0
Wav2vec2 Large 100h Lv60 Self
Apache-2.0
Wav2Vec2-Large-100h-Lv60是基于100小时Libri-Light和Librispeech语音数据预训练和微调的大模型,采用自训练目标训练,适用于16kHz采样率的语音识别任务。
语音识别
Transformers

英语
W
Splend1dchan
17
0
Wav2vec2 2 Bart Large No Adapter
该模型是基于LibriSpeech ASR数据集训练的自动语音识别(ASR)模型,能够将英语语音转换为文本。
语音识别
Transformers

W
sanchit-gandhi
22
0
Wav2vec2 Base 960h
Apache-2.0
Wav2Vec2是一个基于自监督学习的语音识别模型,由Facebook开发,在LibriSpeech数据集上训练,支持英语语音转文本任务。
语音识别
Transformers

英语
W
tommy19970714
19
0
Wav2vec2 2 Bert Large No Adapter
基于LibriSpeech数据集训练的自动语音识别(ASR)模型,用于将英语语音转换为文本
语音识别
Transformers

W
speech-seq2seq
15
1
S2t Small Librispeech Asr
MIT
一个用于自动语音识别(ASR)的语音到文本转换器(S2T)模型,基于序列到序列转换器架构
语音识别
Transformers

英语
S
facebook
10.92k
27
Wav2vec2 Base 960h
Apache-2.0
Facebook开发的Wav2Vec2基础模型,在960小时的Librispeech语音音频上进行了预训练和微调,用于英语自动语音识别任务。
语音识别
Transformers

英语
W
facebook
2.1M
331
Wav2vec2 Librispeech Clean 100h Demo Dist
Apache-2.0
基于facebook/wav2vec2-large-lv60在LIBRISPEECH_ASR-CLEAN数据集上微调的语音识别模型
语音识别
Transformers

W
patrickvonplaten
15
0
Sew D Tiny 100k
Apache-2.0
SEW-D是由ASAPP Research开发的压缩高效型语音预训练模型,基于16kHz采样的语音音频进行预训练,适用于多种下游语音任务。
语音识别
Transformers

英语
S
asapp
1,074
2
Wav2vec2 Xls R 300m English
Apache-2.0
XLS-R-300M是基于facebook/wav2vec2-xls-r-300m在librispeech_asr数据集上微调的英语自动语音识别模型,在LibriSpeech测试集上取得了12.29%的词错误率。
语音识别
Transformers

英语
W
vitouphy
21
3
Wav2vec2 2 Bert Large No Adapter Frozen Enc
该模型是基于librispeech_asr数据集训练的语音识别模型,在评估集上取得了2.0133的词错误率(WER)。
语音识别
Transformers

W
speech-seq2seq
25
2
Wav2vec2 2 Roberta Large No Adapter Frozen Enc
该模型是基于LibriSpeech ASR数据集训练的语音识别模型,能够将语音转换为文本。
语音识别
Transformers

W
speech-seq2seq
27
0
Asr Transformer Transformerlm Librispeech
Apache-2.0
这是一个基于Transformer架构的自动语音识别(ASR)系统,结合了CTC和Transformer解码器,在LibriSpeech英文数据集上训练。
语音识别
英语
A
speechbrain
533
7
Wavlm Libri Clean 100h Base
基于microsoft/wavlm-base在LIBRISPEECH_ASR - CLEAN数据集上微调的自动语音识别模型
语音识别
Transformers

W
patrickvonplaten
6,515
1
Sew D Base Plus 400k Ft Ls100h
Apache-2.0
SEW-D-base+ 是由 ASAPP Research 开发的高效语音识别模型,基于 16kHz 采样的语音音频进行预训练,在 LibriSpeech 数据集上表现出色。
语音识别
Transformers

英语
S
asapp
66
4
Wavlm Libri Clean 100h Base Plus
基于microsoft/wavlm-base-plus在LIBRISPEECH_ASR - CLEAN数据集上微调的自动语音识别模型
语音识别
Transformers

W
patrickvonplaten
126.17k
3
Wav2vec2 Base 100h
Apache-2.0
Wav2Vec2基础版是在16kHz采样的Librispeech语音音频上进行了100小时预训练和微调的自动语音识别模型。
语音识别
Transformers

英语
W
facebook
4,380
6
S2t Large Librispeech Asr
MIT
一个用于自动语音识别(ASR)的端到端序列到序列转换器模型,基于LibriSpeech数据集训练
语音识别
Transformers

英语
S
facebook
422
10
S2t Medium Librispeech Asr
MIT
一个用于自动语音识别(ASR)的语音到文本转换器(S2T)模型,基于序列到序列转换器架构
语音识别
Transformers

英语
S
facebook
1,086
9
Dprnntasnet Ks2 Libri1Mix Enhsingle 16k
基于Asteroid框架训练的音频增强模型,专为单通道语音增强任务设计,在Libri1Mix数据集上训练。
音频增强
D
JorisCos
4,859
1
Dptnet Libri1Mix Enhsingle 16k
基于Asteroid框架训练的音频增强模型,专注于单声道语音增强任务
音频增强
D
JorisCos
4,446
3
Dcunet Libri1Mix Enhsingle 16k
基于Asteroid框架训练的音频增强模型,专门用于单声道语音增强任务
音频增强
D
JorisCos
69
5
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文