16kHz音频处理

# 16kHz音频处理

Focalcodec 25hz

基于焦点调制网络的低比特率语音编解码器，支持16 kHz语音编码

Audio Emotion Detection

本模型是基于facebook/wav2vec2-large-xlsr-53微调而成的音频情感检测模型，可识别7种情感状态

Inference Engine Whisper Tiny

Whisper Tiny是OpenAI开发的轻量级语音转文本模型，适用于实时语音识别任务。

Sentis Whisper Tiny

Whisper-Tiny是OpenAI开发的一个小型自动语音识别(ASR)模型，专为语音转文本任务设计，适用于Unity环境。

Wav2vec2 French Phonemizer

这是一个针对法语语音转音素任务微调的模型，基于facebook/wav2vec2-base-fr-voxpopuli-v2模型，使用Common Voice v13数据集进行训练。

Transformers 法语

基于Facebook大规模多语言语音项目微调的语言识别模型，支持126种语言的音频分类

Transformers 支持多种语言

Wav2vec2 Large Vi Vlsp2020

基于wav2vec2架构的越南语自动语音识别模型，预训练使用1.3万小时未标注YouTube音频，并在250小时标注数据上微调

Transformers 其他

Assignment1 Omar

Wav2Vec2是一个基于自监督学习的语音识别模型，在LibriSpeech 960小时语音数据上预训练和微调，支持英语语音转录。

Transformers 英语

Classroom-workshop

Wav2vec2 Conformer Rope Large 100h Ft

基于Librispeech 100小时语音数据微调的Wav2Vec2 Conformer模型，采用旋转位置嵌入技术

Transformers 英语

Wav2vec2 Conformer Rel Pos Large 100h Ft

采用相对位置嵌入技术的Wav2Vec2-Conformer大型语音识别模型，基于Librispeech 100小时语音数据微调

Transformers 英语

Wav2vec2 Large 10min Lv60 Self

该模型是基于Wav2Vec2架构的大规模语音识别模型，在Libri-Light和Librispeech的10分钟数据上进行了预训练和微调，使用自训练目标进行训练，适用于16kHz采样率的语音音频。

Transformers 英语

Data2vec Audio Large 10m

Data2Vec是一个通用的自监督学习框架，适用于语音、视觉和语言任务。该音频大模型基于Librispeech的10分钟数据进行预训练和微调，适用于16kHz采样的语音音频。

Transformers 英语

Data2vec Audio Large

Data2Vec-Audio-Large是基于16kHz采样语音音频预训练的大型模型，采用自监督学习框架，适用于语音识别等任务。

Transformers 英语

Wav2vec2 Base Pt Voxpopuli V2

基于葡萄牙语VoxPopuli语料库预训练的Wav2Vec2基础模型，适用于语音识别任务

Transformers 其他

Data2vec Audio Base 100h

Data2Vec是一个通用的自监督学习框架，适用于语音、视觉和语言任务。该音频基础模型基于Librispeech语音音频进行了100小时的预训练和微调。

Transformers 英语

Wav2vec2 Large Xlsr German

基于Facebook的wav2vec2-large-xlsr-53模型，使用Common Voice德语数据集微调的自动语音识别(ASR)模型

语音识别德语

Sew D Tiny 100k Ft Ls100h

SEW-D-tiny 是由 ASAPP Research 开发的高效语音识别预训练模型，专注于性能和效率的平衡。

Transformers 英语

Wav2vec2 Large Xlsr 53 German

基于Facebook的Wav2Vec2架构的大规模德语自动语音识别(ASR)模型，在Common Voice德语数据集上微调

语音识别德语

Wav2vec2 Large Uralic Voxpopuli V2

基于VoxPopuli语料库的42.5小时乌拉尔语系无标注数据预训练的Wav2Vec2大型语音模型

Wav2vec2 Base En Voxpopuli V2

基于VoxPopuli语料库的24.1k无标注英语数据预训练的Wav2Vec2基础模型，适用于语音识别任务。

Transformers 英语

Romanian Wav2vec2

基于facebook/wav2vec2-xls-r-300m微调的罗马尼亚语语音识别模型，在共同语音8.0和罗马尼亚语音合成数据集上训练，在HuggingFace鲁棒语音挑战赛中位列罗马尼亚语音识别第一名。

Transformers 其他

Hubert Base Superb Ic

基于Hubert-Base-LS960预训练模型，在SUPERB意图分类任务上微调的语音意图分类模型

Transformers 英语

Wav2vec2 Base 960h

Facebook开发的Wav2Vec2基础模型，在960小时的Librispeech语音音频上进行了预训练和微调，用于英语自动语音识别任务。

Transformers 英语

Wav2vec2 Large Xlsr Kn

这是一个基于Facebook的wav2vec2-large-xlsr-53模型在卡纳达语上进行微调的自动语音识别(ASR)模型，使用OpenSLR SLR79数据集训练。

语音识别其他

Wav2vec2 Large Xlsr 53 Hebrew

基于facebook/wav2vec2-large-xlsr-53在希伯来语语音数据上微调的自动语音识别模型

语音识别其他

Wav2vec2 Base Et Voxpopuli V2

基于Facebook Wav2Vec2框架的语音模型，专门针对爱沙尼亚语进行预训练

Transformers 其他

Wav2vec2 Base De Voxpopuli V2

基于Facebook Wav2Vec2架构的德语语音预训练模型，使用VoxPopuli语料库中的23.2k未标注德语数据进行预训练。

Transformers 德语

Wav2vec2 Base Nl Voxpopuli V2

基于Facebook Wav2Vec2架构的语音模型，专门针对荷兰语进行预训练，使用VoxPopuli语料库中的19.0k未标注数据。

Transformers 其他

Wav2vec2 Large Xlsr Pa IN

基于facebook/wav2vec2-large-xlsr-53在旁遮普语Common Voice数据集上微调的语音识别模型

Wav2vec2 Large Xlsr Persian

基于facebook/wav2vec2-large-xlsr-53在波斯语（Farsi）上微调的自动语音识别模型，支持16kHz采样率的语音输入。

语音识别其他

Wav2vec2 Large Superb Er

这是一个基于Wav2Vec2-Large模型的情感识别模型，专门用于从语音中识别情感类别。

Transformers 英语

Hubert Xlarge Ll60k

Hubert是一个基于自监督学习的语音表征模型，通过类BERT的预测损失学习语音的声学和语言联合表征。

Transformers 英语

Hubert Base Ls960

HuBERT是一种自监督语音表示学习模型，通过类似BERT的预测损失学习语音特征，适用于语音识别等任务。

Transformers 英语

Unispeech Sat Base 100h Libri Ft

基于UniSpeech-SAT基础模型，在LibriSpeech语音数据上进行了100小时微调的自动语音识别模型

Transformers 英语

Wav2vec2 Large Xlsr Georgian

这是一个基于facebook/wav2vec2-large-xlsr-53模型在格鲁吉亚语上进行微调的自动语音识别(ASR)模型，使用Common Voice数据集训练。

语音识别其他

Wav2vec2 Large Xlsr 53 French

这是一个基于XLSR-53大模型微调的法语语音识别模型，在Common Voice数据集上训练，支持高准确率的法语语音转文本。

语音识别法语

Wav2vec2 Large Xlsr Pt

基于facebook/wav2vec2-large-xlsr-53模型微调的葡萄牙语自动语音识别(ASR)模型，在Common Voice葡萄牙语数据集上达到17.22%词错误率(WER)

语音识别其他

Wav2vec2 Base Pl Voxpopuli V2

基于VoxPopuli语料库的波兰语Wav2Vec2基础模型，适用于语音识别任务

Transformers 其他

Wav2vec2 Base Cs Voxpopuli V2

基于VoxPopuli语料库预训练的Wav2Vec2基础模型，专注于捷克语语音处理

Transformers 其他

Sew D Mid 400k Ft Ls100h

SEW-D-mid是由ASAPP Research开发的语音预训练模型，专注于自动语音识别任务，在性能和效率之间取得了良好平衡。

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24