高精度语音转文本

# 高精度语音转文本

Parakeet Tdt 0.6b V2

基于 NVIDIA Parakeet TDT 0.6B v2 转换的 MLX 格式自动语音识别模型，支持高效语音转文本任务。

Aidman Wav2vec2 Large Xls R 300m Irish Colab

这是一个基于facebook/wav2vec2-xls-r-300m在通用语音数据集上微调的语音识别模型，支持爱尔兰语。

Whisper Large V3 Turbo Cantonese Yue English

基于Whisper架构优化的粤语与英语混合语音识别模型，支持高精度双语转录

Whisper Large V2 Spanish

基于openai/whisper-large-v2微调的西班牙语语音识别模型，在Common Voice 11.0西班牙语测试集上WER为8.55%

Exp W2v2t Sv Se Wavlm S42

基于microsoft/wavlm-large微调的瑞典语自动语音识别模型，适用于16kHz采样率的语音输入。

Wav2vec2 Large Xls R 300m Slovenian

该模型是基于facebook/wav2vec2-xls-r-300m在common_voice斯洛文尼亚语数据集上微调的语音识别模型，词错误率为0.3271。

Wav2vec2 Large Xls R 300m Kinyarwanda

基于facebook/wav2vec2-xls-r-300m在common_voice数据集上微调的卢旺达语语音识别模型

Victor Hg Ptbr 2.0

基于facebook/wav2vec2-xls-r-300m在common_voice数据集上微调的葡萄牙语语音识别模型

Wav2vec2 Large Xls R 300m Chinese Taiwan Colab

基于wav2vec2架构的大规模语音识别模型，针对中文（台湾）语音进行优化，适用于语音转文本任务。

Wav2vec2 Xlsr Nepali

该模型是基于facebook/wav2vec2-large-xlsr-53在尼泊尔语数据集上微调的语音识别模型。

基于 LibriSpeech ASR 数据集训练的自动语音识别模型，用于将英语语音转换为文本。

Wav2vec2 Large Xlsr 53 Latvian

这是一个基于Facebook的Wav2Vec2-Large-XLSR-53模型在拉脱维亚语Common Voice数据集上微调的自动语音识别(ASR)模型。

语音识别其他

Wav2vec2 Large Xlsr Slovene

这是一个基于Facebook的wav2vec2-large-xlsr-53模型进行微调的斯洛文尼亚语语音识别模型，使用Common Voice数据集训练。

语音识别其他

Wav2vec2 Base 10k Voxpopuli Ft Ro

基于Facebook Wav2Vec2架构的语音识别模型，针对罗马尼亚语进行微调，适用于自动语音识别任务。

Transformers 其他

W2v Timit Ft 4001

基于Wav2Vec 2.0架构的语音识别模型，在TIMIT数据集上微调，适用于英语语音转文本任务

该模型是基于facebook/wav2vec2-large-xlsr-53在未知数据集上微调的自动语音识别(ASR)模型，支持伊洛卡诺语(Iloko)语音识别。

Wav2vec2 Large Xlsr Latvian Cv

基于facebook/wav2vec2-large-xlsr-53模型，在拉脱维亚语Common Voice数据集上微调的语音识别模型

语音识别其他

Wav2vec2 Base 10k Voxpopuli Ft Es

基于Facebook Wav2Vec2基础模型，在VoxPopuli语料库的10K未标注子集上预训练，并在西班牙语转录数据上微调的语音识别模型。

Transformers 西班牙语

Wav2vec2 Large Xlsr 53 Irish

基于facebook/wav2vec2-large-xlsr-53模型，使用Common Voice数据集对爱尔兰语进行了微调的语音识别模型。

Wav2vec2 Large Xlsr Hindi Commonvoice

该模型是基于facebook/wav2vec2-large-xlsr-53在common_voice数据集上微调的版本，主要用于印地语语音识别任务。

Wav2vec2 Base 10k Voxpopuli Ft Sl

基于Facebook Wav2Vec2基础模型，在VoxPopuli语料库的10K未标注子集上预训练，并在斯洛文尼亚语转录数据上微调的自动语音识别模型。

Transformers 其他

Wav2vec2 Base 10k Voxpopuli Ft En

基于VoxPopuli语料库10K未标记子集预训练并在英语转录数据上微调的Wav2Vec2基础模型，适用于英语语音识别任务。

Transformers 英语

Wav2vec2 Large Xlsr Eo

基于facebook/wav2vec2-large-xlsr-53模型，使用Common Voice数据集对世界语进行微调的语音识别模型。

语音识别其他

Wav2vec2 Base 10k Voxpopuli Ft De

基于Facebook Wav2Vec2基础模型，在VoxPopuli语料库10K无标注子集上预训练，并在德语转录数据上微调的语音识别模型

Transformers 德语

Wav2vec2 Large Xlsr Or

这是一个基于facebook/wav2vec2-large-xlsr-53模型在Odia语言上微调的自动语音识别(ASR)模型，使用Common Voice数据集训练。

语音识别其他

W2v Xlsr Dutch Lm

这是一个基于wav2vec2架构的荷兰语语音识别模型，由Facebook开发，专门针对荷兰语进行了优化。

W2v Xlsr Dutch Lm Added

Facebook 发布的 wav2vec2 系列模型之一，专门针对荷兰语优化的自动语音识别（ASR）模型。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24