16kHz音频处理
Focalcodec 25hz
Apache-2.0
基于焦点调制网络的低比特率语音编解码器,支持16 kHz语音编码
语音合成
F
lucadellalib
25
1
Audio Emotion Detection
Apache-2.0
本模型是基于facebook/wav2vec2-large-xlsr-53微调而成的音频情感检测模型,可识别7种情感状态
音频分类
Transformers
A
Hatman
630
8
Sentis Whisper Tiny
Apache-2.0
Whisper-Tiny是OpenAI开发的一个小型自动语音识别(ASR)模型,专为语音转文本任务设计,适用于Unity环境。
语音识别
S
unity
253
48
Mms Lid 126
基于Facebook大规模多语言语音项目微调的语言识别模型,支持126种语言的音频分类
音频分类
Transformers
支持多种语言
M
facebook
2.1M
26
Wav2vec2 Large Vi Vlsp2020
基于wav2vec2架构的越南语自动语音识别模型,预训练使用1.3万小时未标注YouTube音频,并在250小时标注数据上微调
语音识别
Transformers
其他
W
nguyenvulebinh
385
4
Assignment1 Omar
Apache-2.0
Wav2Vec2是一个基于自监督学习的语音识别模型,在LibriSpeech 960小时语音数据上预训练和微调,支持英语语音转录。
语音识别
Transformers
英语
A
Classroom-workshop
28
0
Wav2vec2 Conformer Rope Large 100h Ft
Apache-2.0
基于Librispeech 100小时语音数据微调的Wav2Vec2 Conformer模型,采用旋转位置嵌入技术
语音识别
Transformers
英语
W
facebook
99
0
Wav2vec2 Conformer Rel Pos Large 100h Ft
Apache-2.0
采用相对位置嵌入技术的Wav2Vec2-Conformer大型语音识别模型,基于Librispeech 100小时语音数据微调
语音识别
Transformers
英语
W
facebook
99
0
Wav2vec2 Large 10min Lv60 Self
Apache-2.0
该模型是基于Wav2Vec2架构的大规模语音识别模型,在Libri-Light和Librispeech的10分钟数据上进行了预训练和微调,使用自训练目标进行训练,适用于16kHz采样率的语音音频。
语音识别
Transformers
英语
W
Splend1dchan
177
0
Data2vec Audio Large 10m
Apache-2.0
Data2Vec是一个通用的自监督学习框架,适用于语音、视觉和语言任务。
语音识别
Transformers
英语
D
facebook
19
0
Data2vec Audio Large
Apache-2.0
Data2Vec-Audio-Large是基于16kHz采样语音音频预训练的大型模型,采用自监督学习框架,适用于语音识别等任务。
语音识别
Transformers
英语
D
facebook
97
1
Wav2vec2 Large Uralic Voxpopuli V2
基于VoxPopuli语料库的42.5小时乌拉尔语系无标注数据预训练的Wav2Vec2大型语音模型
语音识别
Transformers
W
facebook
46
0
Wav2vec2 Base En Voxpopuli V2
基于VoxPopuli语料库的24.1k无标注英语数据预训练的Wav2Vec2基础模型,适用于语音识别任务。
语音识别
Transformers
英语
W
facebook
35
1
Wav2vec2 Base Pt Voxpopuli V2
基于葡萄牙语VoxPopuli语料库预训练的Wav2Vec2基础模型,适用于语音识别任务
语音识别
Transformers
其他
W
facebook
30
0
Wav2vec2 Large Xlsr German
Apache-2.0
基于Facebook的wav2vec2-large-xlsr-53模型,使用Common Voice德语数据集微调的自动语音识别(ASR)模型
语音识别
德语
W
maxidl
253
0
Wav2vec2 Large Xlsr 53 German
Apache-2.0
基于Facebook的Wav2Vec2架构的大规模德语自动语音识别(ASR)模型,在Common Voice德语数据集上微调
语音识别
德语
W
facebook
1,767
3
Sew D Tiny 100k Ft Ls100h
Apache-2.0
SEW-D-tiny 是由 ASAPP Research 开发的高效语音识别预训练模型,专注于性能和效率的平衡。
语音识别
Transformers
英语
S
asapp
24.55k
2
Romanian Wav2vec2
Apache-2.0
基于facebook/wav2vec2-xls-r-300m微调的罗马尼亚语语音识别模型,在共同语音8.0和罗马尼亚语音合成数据集上训练,在HuggingFace鲁棒语音挑战赛中位列罗马尼亚语音识别第一名。
语音识别
Transformers
其他
R
gigant
88.90k
6
Wav2vec2 Base 960h
Apache-2.0
Facebook开发的Wav2Vec2基础模型,在960小时的Librispeech语音音频上进行了预训练和微调,用于英语自动语音识别任务。
语音识别
Transformers
英语
W
facebook
2.1M
331
Hubert Base Superb Ic
Apache-2.0
基于Hubert-Base-LS960预训练模型,在SUPERB意图分类任务上微调的语音意图分类模型
音频分类
Transformers
英语
H
superb
578
0
Data2vec Audio Base 100h
Apache-2.0
Data2Vec是一个通用的自监督学习框架,适用于语音、视觉和语言任务。
语音识别
Transformers
英语
D
facebook
4,369
1
Wav2vec2 Large Xlsr Georgian
Apache-2.0
这是一个基于facebook/wav2vec2-large-xlsr-53模型在格鲁吉亚语上进行微调的自动语音识别(ASR)模型,使用Common Voice数据集训练。
语音识别
其他
W
m3hrdadfi
66
5
Wav2vec2 Large Xlsr Pt
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的葡萄牙语自动语音识别(ASR)模型,在Common Voice葡萄牙语数据集上达到17.22%词错误率(WER)
语音识别
其他
W
gchhablani
29
0
Wav2vec2 Base Pl Voxpopuli V2
基于VoxPopuli语料库的波兰语Wav2Vec2基础模型,适用于语音识别任务
语音识别
Transformers
其他
W
facebook
30
0
Wav2vec2 Base Nl Voxpopuli V2
基于Facebook Wav2Vec2架构的语音模型,专门针对荷兰语进行预训练,使用VoxPopuli语料库中的19.0k未标注数据。
语音识别
Transformers
其他
W
facebook
22
0
Wav2vec2 Base Et Voxpopuli V2
基于Facebook Wav2Vec2框架的语音模型,专门针对爱沙尼亚语进行预训练
语音识别
Transformers
其他
W
facebook
30
0
Wav2vec2 Base De Voxpopuli V2
基于Facebook Wav2Vec2架构的德语语音预训练模型,使用VoxPopuli语料库中的23.2k未标注德语数据进行预训练。
语音识别
Transformers
德语
W
facebook
44
1
Wav2vec2 Base Cs Voxpopuli V2
基于VoxPopuli语料库预训练的Wav2Vec2基础模型,专注于捷克语语音处理
语音识别
Transformers
其他
W
facebook
33
1
Wav2vec2 Large Xlsr Pa IN
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53在旁遮普语Common Voice数据集上微调的语音识别模型
语音识别
W
danurahul
26
2
Sew D Mid 400k Ft Ls100h
Apache-2.0
SEW-D-mid是由ASAPP Research开发的语音预训练模型,专注于自动语音识别任务,在性能和效率之间取得了良好平衡。
语音识别
Transformers
英语
S
asapp
20
1
Wav2vec2 Large Xlsr 53 French
Apache-2.0
这是一个基于XLSR-53大模型微调的法语语音识别模型,在Common Voice数据集上训练,支持高准确率的法语语音转文本。
语音识别
法语
W
jonatasgrosman
47.83k
11
Wav2vec2 Large Xlsr Persian
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53在波斯语(Farsi)上微调的自动语音识别模型,支持16kHz采样率的语音输入。
语音识别
其他
W
m3hrdadfi
562
16
Unispeech Sat Base 100h Libri Ft
Apache-2.0
基于UniSpeech-SAT基础模型,在LibriSpeech语音数据上进行了100小时微调的自动语音识别模型
语音识别
Transformers
英语
U
microsoft
643
4
Wav2vec2 Large Xlsr Kn
Apache-2.0
这是一个基于Facebook的wav2vec2-large-xlsr-53模型在卡纳达语上进行微调的自动语音识别(ASR)模型,使用OpenSLR SLR79数据集训练。
语音识别
其他
W
amoghsgopadi
2,200
1
Wav2vec2 Large Superb Er
Apache-2.0
这是一个基于Wav2Vec2-Large模型的情感识别模型,专门用于从语音中识别情感类别。
音频分类
Transformers
英语
W
superb
1,442
1
Hubert Xlarge Ll60k
Apache-2.0
Hubert是一个基于自监督学习的语音表征模型,通过类BERT的预测损失学习语音的声学和语言联合表征。
语音识别
Transformers
英语
H
facebook
3,874
5
Hubert Base Ls960
Apache-2.0
HuBERT是一种自监督语音表示学习模型,通过类似BERT的预测损失学习语音特征,适用于语音识别等任务。
语音识别
Transformers
英语
H
facebook
406.60k
55
Wav2vec2 Large Xlsr 53 Eu
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型,使用Common Voice数据集对巴斯克语进行微调的语音识别模型。
语音识别
Transformers
W
enterprise-explorers
2,758
0
Wav2vec2 Large Xlsr 53 Hebrew
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53在希伯来语语音数据上微调的自动语音识别模型
语音识别
其他
W
imvladikon
338
5
Wav2vec2 Large Xlsr 53 Odia
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53微调的奥里亚语自动语音识别模型,使用低资源印度语言挑战赛数据训练
语音识别
Transformers
其他
W
theainerd
83
3