端到端语音处理

# 端到端语音处理

Ultravox V0 5 Llama 3 1 8b

基于Llama-3.1-8B-Instruct的多语言音频文本转文本模型，支持40多种语言处理

大型语言模型

Transformers 支持多种语言

Speechless Llama3.2 V0.1

Speechless是一款紧凑的开源文本转语义模型（10亿参数），旨在直接将音频转换为离散的语义表征标记，无需依赖传统的文本转语音（TTS）模型。

语音合成支持多种语言

Speechless Llama3.2 V0.1

无言是一个紧凑的开源文本到语义模型（10亿参数），旨在直接将音频转换为离散的语义标记，无需依赖传统的文本转语音（TTS）模型。

语音识别支持多种语言

Wav2vec2 Nepali

基于Facebook的wav2vec2模型微调的尼泊尔语语音识别模型

Transformers 其他

anish-shilpakar

这是一个基于wav2vec架构的语音处理测试模型，具体用途和训练数据未明确说明。

一个基于Transformer的端到端语音翻译模型，专门用于法语到英语的语音翻译任务。

Transformers 支持多种语言

Wav2vec2 Base Common Voice Fa Demo Colab

该模型是基于facebook/wav2vec2-base微调的波斯语语音识别模型，适用于波斯语语音转文本任务。

Wav2vec2 Large Xlsr 300m Nepali

这是一个基于Wav2Vec2架构的尼泊尔语语音识别模型，支持将尼泊尔语语音转换为文本。

S2t Small Covost2 En De St

一个为端到端英语到德语语音翻译训练的语音到文本转换器模型

Transformers 支持多种语言

Wav2vec2 Large Xls R 300m Turkish Colab 4

该模型是基于facebook/wav2vec2-xls-r-300m在common_voice土耳其语数据集上微调的语音识别模型。

Wav2vec2 Dogri Stt

这是一个基于Wav2Vec2架构的自动语音识别（ASR）模型，专门用于识别多格拉语（Dogri）的语音内容。

Wav2vec2 Xls R 300m En To 15

Facebook的Wav2Vec2 XLS-R模型微调用于多语言语音翻译任务，支持15种语言的英语到目标语言的翻译。

Transformers 支持多种语言

基于microsoft/wavlm-base微调的英语自动语音识别(ASR)模型，在english_ASR - CLEAN数据集上训练，词错误率(WER)为0.0773。

anjulRajendraSharma

Wav2vec2 Large Xlsr Korean

基于Wav2Vec2 XLSR架构的韩语自动语音识别(ASR)模型，在Zeroth韩语数据集上表现出色

Transformers 韩语

Wav2vec2 Urdu Stt

这是一个基于Wav2Vec2架构的乌尔都语语音识别模型，能够将乌尔都语语音转换为文本。

Wav2vec2 Malayalam Stt

这是一个基于Wav2Vec2架构的马拉雅拉姆语语音识别模型，用于将马拉雅拉姆语语音转换为文本。

Wav2vec2 Xls R 2b En To 15

Facebook的Wav2Vec2 XLS-R模型，针对15种语言的语音翻译任务进行了微调，能够将英语口语翻译为多种书面语言。

Transformers 支持多种语言

S2t Small Covost2 En Fa St

一个基于Transformer的端到端语音翻译模型，用于英语到波斯语的语音翻译任务

Transformers 支持多种语言

Wav2vec2 Nepali Stt

基于Wav2Vec2架构的尼泊尔语语音识别模型，可直接将尼泊尔语语音转换为文本

Wav2vec2 Xls R 1b 21 To En

Facebook的Wav2Vec2 XLS-R模型，用于多语言语音到英语的翻译任务

Transformers 支持多种语言

Wav2vec2 Large Xlsr Turkish Demo

该模型是基于土耳其语Common Voice数据集微调的XLSR-Wav2Vec2语音识别模型，主要用于土耳其语语音转文本任务。

patrickvonplaten

S2t Small Mustc En It St

一个基于Transformer的端到端语音翻译模型，专为英语到意大利语的语音翻译任务设计。

Transformers 支持多种语言

Wav2vec2 Kannada Stt

一个基于Wav2Vec2架构的卡纳达语语音识别模型，可直接将卡纳达语语音转换为文本。

Wav2vec2 Base 100k Gtzan Music Genres

基于Wav2Vec 2.0架构的音频分类模型，专门用于音乐流派识别

Wav2vec2 Base Russian Big Kaggle

该模型是基于facebook/wav2vec2-base在俄语数据集上微调的语音识别模型

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24