LibriSpeech优化

# LibriSpeech优化

基于LibriSpeech数据集微调的SpeechT5自动语音识别模型，支持将语音转换为文本。

Asr Wav2vec2 Librispeech

这是一个基于LibriSpeech数据集训练的端到端自动语音识别系统，结合了wav2vec 2.0预训练模型和CTC技术，在英语语音识别任务上表现出色。

语音识别英语

Assignment1 Francesco

基于语音到文本转换器(S2T)训练的自动语音识别(ASR)模型，专为英语语音识别设计

Transformers 英语

Classroom-workshop

Assignment1 Maria

s2t-small-librispeech-asr 是一个用于自动语音识别（ASR）的语音到文本转换器（S2T）模型，基于序列到序列的转换器架构。

Transformers 英语

Classroom-workshop

Assignment1 Joane

一个用于自动语音识别(ASR)的语音到文本转换器(S2T)模型

Transformers 英语

Classroom-workshop

Assignment1 Jack

一个用于自动语音识别(ASR)的语音到文本转换器(S2T)模型，基于序列到序列转换器架构

Transformers 英语

Classroom-workshop

Assignment1 Jane

s2t-small-librispeech-asr 是一个用于自动语音识别（ASR）的语音到文本转换器（S2T）模型，基于序列到序列转换器架构。

Transformers 英语

Classroom-workshop

基于facebook/wav2vec2-xls-r-300m在librispeech_asr数据集上微调的英语语音识别模型

Wav2vec2 Conformer Rope Large 960h Ft

该模型整合了旋转位置嵌入技术，基于16kHz采样的语音音频，在960小时的LibriSpeech数据上进行了预训练和精细调优，适用于英语语音识别任务。

Transformers 英语

Wav2vec2 Conformer Rel Pos Large 960h Ft

基于16kHz采样语音音频的Wav2Vec2-Conformer模型，采用相对位置嵌入技术，在960小时Librispeech数据上预训练和微调

Transformers 英语

Wav2vec2 Large 960h Lv60 Self 4 Gram

基于Facebook Wav2Vec2-Large-960h-lv60-self模型，增加了英语4-gram语言模型以提升语音识别准确率

语音识别英语

patrickvonplaten

Wav2vec2 Base 960h 4 Gram

基于Facebook的Wav2Vec2-Base-960h模型，增加了英语4-gram语言模型，用于提高自动语音识别(ASR)的准确率。

Transformers 英语

patrickvonplaten

Wav2vec2 Large 10min Lv60 Self

该模型是基于Wav2Vec2架构的大规模语音识别模型，在Libri-Light和Librispeech的10分钟数据上进行了预训练和微调，使用自训练目标进行训练，适用于16kHz采样率的语音音频。

Transformers 英语

Wav2vec2 Large 100h Lv60 Self

Wav2Vec2-Large-100h-Lv60是基于100小时Libri-Light和Librispeech语音数据预训练和微调的大模型，采用自训练目标训练，适用于16kHz采样率的语音识别任务。

Transformers 英语

Wav2vec2 2 Bart Large No Adapter

该模型是基于LibriSpeech ASR数据集训练的自动语音识别(ASR)模型，能够将英语语音转换为文本。

Wav2vec2 Base 960h

Wav2Vec2是一个基于自监督学习的语音识别模型，由Facebook开发，在LibriSpeech数据集上训练，支持英语语音转文本任务。

Transformers 英语

Wav2vec2 2 Bert Large No Adapter

基于LibriSpeech数据集训练的自动语音识别(ASR)模型，用于将英语语音转换为文本

Wav2vec2 Base 960h

Facebook开发的Wav2Vec2基础模型，在960小时的Librispeech语音音频上进行了预训练和微调，用于英语自动语音识别任务。

Transformers 英语

S2t Small Librispeech Asr

一个用于自动语音识别（ASR）的语音到文本转换器（S2T）模型，基于序列到序列转换器架构

Transformers 英语

Sew D Tiny 100k

SEW-D是由ASAPP Research开发的压缩高效型语音预训练模型，基于16kHz采样的语音音频进行预训练，适用于多种下游语音任务。

Transformers 英语

Wav2vec2 Librispeech Clean 100h Demo Dist

基于facebook/wav2vec2-large-lv60在LIBRISPEECH_ASR-CLEAN数据集上微调的语音识别模型

patrickvonplaten

Asr Transformer Transformerlm Librispeech

这是一个基于Transformer架构的自动语音识别(ASR)系统，结合了CTC和Transformer解码器，在LibriSpeech英文数据集上训练。

语音识别英语

Wav2vec2 Xls R 300m English

XLS-R-300M是基于facebook/wav2vec2-xls-r-300m在librispeech_asr数据集上微调的英语自动语音识别模型，在LibriSpeech测试集上取得了12.29%的词错误率。

Transformers 英语

Wav2vec2 2 Bert Large No Adapter Frozen Enc

该模型是基于librispeech_asr数据集训练的语音识别模型，在评估集上取得了2.0133的词错误率(WER)。

Wavlm Libri Clean 100h Base

基于microsoft/wavlm-base在LIBRISPEECH_ASR - CLEAN数据集上微调的自动语音识别模型

patrickvonplaten

Wav2vec2 2 Roberta Large No Adapter Frozen Enc

该模型是基于LibriSpeech ASR数据集训练的语音识别模型，能够将语音转换为文本。

Sew D Base Plus 400k Ft Ls100h

SEW-D-base+ 是由 ASAPP Research 开发的高效语音识别模型，基于 16kHz 采样的语音音频进行预训练，在 LibriSpeech 数据集上表现出色。

Transformers 英语

Wav2vec2 Base 100h

Wav2Vec2基础版是在16kHz采样的Librispeech语音音频上进行了100小时预训练和微调的自动语音识别模型。

Transformers 英语

S2t Large Librispeech Asr

一个用于自动语音识别(ASR)的端到端序列到序列转换器模型，基于LibriSpeech数据集训练

Transformers 英语

Wavlm Libri Clean 100h Base Plus

基于microsoft/wavlm-base-plus在LIBRISPEECH_ASR - CLEAN数据集上微调的自动语音识别模型

patrickvonplaten

S2t Medium Librispeech Asr

一个用于自动语音识别(ASR)的语音到文本转换器(S2T)模型，基于序列到序列转换器架构

Transformers 英语

Dprnntasnet Ks2 Libri1Mix Enhsingle 16k

基于Asteroid框架训练的音频增强模型，专为单通道语音增强任务设计，在Libri1Mix数据集上训练。

Dptnet Libri1Mix Enhsingle 16k

基于Asteroid框架训练的音频增强模型，专注于单声道语音增强任务

Dcunet Libri1Mix Enhsingle 16k

基于Asteroid框架训练的音频增强模型，专门用于单声道语音增强任务

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24