多语言语音处理

# 多语言语音处理

开源印度语言识别模型，支持从语音输入中检测和分类多种印度语言

Transformers 支持多种语言

Phi 4 Multimodal Instruct

Phi-4-multimodal-instruct是一个轻量级开源多模态基础模型，支持文本、图像和音频输入，生成文本输出，具备128K标记的上下文长度。

多模态融合

Transformers 支持多种语言

基于Whisper Base微调的乌兹别克语语音识别模型，在Common Voice数据集上训练

Transformers 其他

Wav2vec2 Large Xlsr 53 Tr Fine Tuning Deprecated

该模型是基于facebook/wav2vec2-large-xlsr-53在common_voice土耳其语数据集上微调的语音识别模型

English Filipino Wav2vec2 L Xls R Test 07

该模型是基于jonatasgrosman/wav2vec2-large-xlsr-53-english在菲律宾语音数据集上微调的版本，主要用于英语到菲律宾语的语音识别任务。

Wav2vec2 Xlsr Nepali

该模型是基于facebook/wav2vec2-large-xlsr-53在尼泊尔语数据集上微调的语音识别模型。

Wav2vec2 Large Xls R 300m Irish Colab Test

这是一个基于facebook/wav2vec2-xls-r-300m模型在common_voice爱尔兰语数据集上微调的语音识别模型，主要用于爱尔兰语的自动语音识别任务。

Wav2vec2 Large Xlsr Rm Sursilv

这是一个基于facebook/wav2vec2-large-xlsr-53模型微调的自动语音识别模型，专门用于识别罗曼什语的苏塞尔瓦方言。

Wav2vec2 Large El Voxpopuli V2

基于VoxPopuli语料库预训练的希腊语语音识别模型，使用17.7小时未标注数据

Transformers 其他

S2t Wav2vec2 Large En Tr

一个基于Transformer的端到端语音翻译模型，用于英语到土耳其语的语音转文本任务

Transformers 支持多种语言

该模型是基于facebook/wav2vec2-xls-r-1b在爱沙尼亚语数据集上微调的自动语音识别模型

Transformers 其他

Wav2vec2 Large Xlsr Slovene

这是一个基于Facebook的wav2vec2-large-xlsr-53模型进行微调的斯洛文尼亚语语音识别模型，使用Common Voice数据集训练。

语音识别其他

Wav2vec2 Large West Germanic Voxpopuli V2

Facebook的Wav2Vec2大型模型，仅在西日耳曼语系的VoxPopuli语料库66.3无标注数据上进行预训练。

该模型是在阿布哈兹语数据集上微调的自动语音识别模型，基于XLS-R架构

Transformers 其他

Wav2vec2 Xls R 300m Turkish Tr Med

该模型是基于facebook/wav2vec2-xls-r-300m在常见语音数据集上微调的土耳其语语音识别模型

Wav2vec2 Large Xls R 300m Welsh

这是一个基于facebook/wav2vec2-xls-r-300m在威尔士语数据集上微调的自动语音识别模型，在Common Voice 7威尔士语测试集上取得了31.003%的词错误率和7.775%的字错误率。

Transformers 其他

Wav2vec2 Large North Germanic Voxpopuli V2

基于北日耳曼语系VoxPopuli语料库预训练的大型语音模型

S2t Small Covost2 En Ca St

这是一个基于Transformer的端到端语音翻译模型，专门用于将英语语音翻译成加泰罗尼亚语文本。

Transformers 支持多种语言

S2t Small Covost2 En Et St

这是一个基于Transformer的端到端语音翻译模型，专门用于将英语语音转换为爱沙尼亚语文本。

Transformers 支持多种语言

Wav2vec2 Base 10k Voxpopuli Ft Hr

基于Facebook Wav2Vec2架构的语音识别模型，使用VoxPopuli语料库预训练并在克罗地亚语数据上微调

Transformers 其他

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24