音频转文本
Ultravox V0 5 Llama 3 2 1b GGUF
MIT
Ultravox v0.5是基于Llama-3 2.1B架构优化的音频文本转文本模型,专注于高效处理语音转写任务。
语音识别
U
ggml-org
421
1
Gemma 3 4b It Q4 0
Gemma 3 4B Instruct 是 Google 开发的一个 40 亿参数的大语言模型,专注于文本生成和理解任务。
大型语言模型
G
danchev
24
0
Speechless Llama3.2 V0.1 I1 GGUF
Apache-2.0
这是对Menlo/Speechless-llama3.2-v0.1模型进行加权/重要性矩阵量化的结果,提供多种量化版本
大型语言模型
支持多种语言
S
mradermacher
395
0
Whisper Large V3.w4a16
Apache-2.0
这是openai/whisper-large-v3的量化版本,采用INT4权重量化和FP16激活量化,适用于vLLM推理。
语音识别
Transformers
英语
W
nm-testing
20
1
Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 V1
Apache-2.0
该模型是基于wav2vec2-large-xlsr-53在GARY109/AI_LIGHT_DANCE - ONSET-SINGING2数据集上微调的自动语音识别模型,主要用于歌唱语音识别任务。
语音识别
Transformers
A
gary109
185
0
Wav2vec2 Russian
基于wav2vec2架构的俄语语音识别模型,识别结果可通过配套文本纠错网络进行后处理
语音识别
Transformers
W
UrukHan
100
8
Wav2vec2 300m Teste4
Apache-2.0
基于facebook/wav2vec2-xls-r-300m在common_voice数据集上微调的语音识别模型
语音识别
Transformers
W
tonyalves
17
0
Wav2vec2 Base 10k Voxpopuli Ft Pl
基于VoxPopuli语料库10K未标注数据预训练,并在波兰语转录数据上微调的Wav2Vec2语音识别模型
语音识别
Transformers
其他
W
facebook
203
3
Wav2vec2 Base 10k Voxpopuli Ft Sk
基于VoxPopuli语料库10K未标注数据预训练,并在斯洛伐克语转录数据上微调的语音识别模型
语音识别
Transformers
其他
W
facebook
39
1
Wav2vec2 Base 10k Voxpopuli Ft Fi
基于Facebook Wav2Vec2基础模型,在VoxPopuli语料库的10K未标注子集上预训练,并在芬兰语转录数据上微调的自动语音识别模型。
语音识别
Transformers
其他
W
facebook
24
0