日语语音识别

# 日语语音识别

Japanese Hubert Base Phoneme Ctc

本模型是基于rinna/japanese-hubert-base通过CTC进行日语音素识别的微调模型，可有效提升日语语音识别的准确性。

Transformers 日语

Parakeet Tdt Ctc 0.6b Ja

该模型是基于FastConformer架构的日语自动语音识别(ASR)模型，由NVIDIA开发并转换为MLX格式。

Kotoba Whisper V2.2 Faster

这是一个基于Whisper架构的日语自动语音识别(ASR)模型，已转换为CTranslate2格式以提高推理效率。

语音识别日语

Vlzcrz Whisper Small Japanese 2

基于openai/whisper-small在Common Voice 17.0数据集上微调的日语语音识别模型

Transformers 日语

Japanese Wav2vec2 Large Rs35kh

基于wav2vec 2.0 Large架构，在大型日语ASR语料库ReazonSpeech v2.0上微调而成的日语自动语音识别模型

Transformers 日语

reazon-research

Kotoba Whisper V2.2

基于Whisper的日语自动语音识别模型，集成说话人分离和标点符号添加功能

Transformers 日语

Kotoba Whisper V2.0 Faster

适用于CTranslate2的Whisper语音识别模型，专为日语优化，提供高效的语音转文本功能。

语音识别日语

Kotoba Whisper V2.1

Kotoba-Whisper-v2.1 是一款基于 Whisper 的日语自动语音识别（ASR）模型，集成了额外的后处理栈，能够自动添加标点符号。

Transformers 日语

Kotoba Whisper V2.0

Kotoba-Whisper是由Asahi Ushio与Kotoba Technologies合作开发的日语自动语音识别蒸馏模型，基于Whisper large-v3蒸馏而来，推理速度提升6.3倍。

Transformers 日语

Japanese Wav2vec2 Base Rs35kh

基于大规模日语自动语音识别语料库ReazonSpeech v2.0微调的wav2vec 2.0 Base模型，适用于日语自动语音识别任务。

Transformers 日语

reazon-research

Parakeet Tdt Ctc 0.6b Ja

Parakeet TDT-CTC 0.6B是一个能够转录带标点符号的日语语音的自动语音识别(ASR)模型，由NVIDIA NeMo团队开发。

语音识别日语

Kotoba Whisper V1.1

Kotoba-Whisper-v1.1是基于Whisper的日语自动语音识别模型，增加了标点符号和时间戳处理功能。

Transformers 日语

Wav2vec2 Base Japanese Asr

基于rinna/japanese-wav2vec2-base在common_voice_11_0日语数据集上微调的语音识别模型，仅支持平假名输出

Transformers 日语

Kotoba Whisper V1.0

Kotoba-Whisper 是由 Asahi Ushio 和 Kotoba Technologies 合作开发的日语自动语音识别蒸馏版 Whisper 模型集合，比原版 large-v3 快 6.3 倍，同时保持相近的低错误率。

Transformers 日语

Whisper Large V3 Japanese 4k Steps

基于openai/whisper-large-v3在Common Voice 16.1日语数据集上微调的语音识别模型，训练4000步

Transformers 日语

Nue ASR是一种端到端的日语语音识别模型，集成了预训练的语音和语言模型，识别准确度高且速度快。

Transformers 支持多种语言

Faster Whisper Large V2 Mix Jp

这是whisper-large-v2-mix-jp模型的CTranslate2转换版本，适用于日语语音识别任务

语音识别日语

Faster Whisper Large V2 Japanese 5k Steps

基于Whisper Large V2模型的日语自动语音识别(ASR)模型，使用CTranslate2优化转换，支持高效推理。

Transformers 日语

Whisper Small Japanese

该模型是基于openai/whisper-small微调的日语语音识别模型，支持日语语音转文本任务。

Transformers 日语

Whisper Base Japanese

本模型使用Common Voice、JVS和JSUT数据集对openai/whisper-base进行日语微调，适用于日语语音识别任务。

Transformers 日语

Wav2vec2 Large Xlsr 53 Japanese

基于facebook/wav2vec2-large-xlsr-53微调的日语语音识别模型，支持16kHz采样率音频输入

Transformers 日语

Whisper Large V2 Mix Jp

基于OpenAI Whisper-large-v2模型在日语语音数据集上微调的自动语音识别(ASR)模型

Whisper Medium Jp

基于openai/whisper-medium在common_voice_11_0数据集上微调的日语语音识别模型

Transformers 日语

Exp W2v2t Ja Vp It S544

基于facebook/wav2vec2-large-it-voxpopuli模型，使用Common Voice 7.0 (日语版)的训练集进行语音识别微调的日语自动语音识别模型。

Transformers 日语

Exp W2v2t Ja Unispeech Sat S884

基于microsoft/unispeech-sat-large模型微调的日语自动语音识别模型，使用Common Voice 7.0日语数据集训练。

Transformers 日语

Exp W2v2t Ja Wavlm S729

基于microsoft/wavlm-large模型微调的日语自动语音识别模型，使用Common Voice 7.0日语数据集训练

Transformers 日语

Exp W2v2t Ja Unispeech S569

基于microsoft/unispeech-large-1500h-cv模型，使用Common Voice 7.0 (日语)数据集进行语音识别微调的日语自动语音识别模型

Transformers 日语

Exp W2v2t Ja Xlsr 53 S109

基于facebook/wav2vec2-large-xlsr-53模型微调的日语自动语音识别模型，使用Common Voice 7.0日语数据集训练

Transformers 日语

Wav2vec2 Xls R 300m Japanese

这是一个基于facebook/wav2vec2-xls-r-300m微调的日语自动语音识别模型，专门用于将日语音频转录为平假名文本。

Transformers 日语

W2v Hf Commonvoice From Xlsr53 Pretrain 0329UTC1500

基于facebook/wav2vec2-large-xlsr-53在Common Voice日语数据集上微调的语音识别模型

Wav2vec2 Large Xlsr Japanese 0325 1200

这是一个基于facebook/wav2vec2-large-xlsr-53模型在日语语音识别任务上微调的自动语音识别(ASR)模型。

Transformers 日语

W2v Hf Jsut Xlsr53

基于facebook/wav2vec2-large-xlsr-53模型，使用Common Voice和JSUT数据集对日语进行了微调的自动语音识别模型。

Transformers 日语

Kan Bayashi Csj Asr Train Asr Transformer Raw Char Sp Valid.acc.ave

这是一个基于ESPnet框架训练的日语自动语音识别(ASR)模型，使用CSJ数据集训练，采用Transformer架构。

语音识别日语

Wav2vec2 Xls R 1b Japanese

该模型是基于facebook/wav2vec2-xls-r-1b在公共日语语音数据集上进行微调的版本，支持日语自动语音识别任务。

Transformers 日语

Wav2vec2 Large Xlsr Japanese

基于facebook/wav2vec2-large-xlsr-53在日语上的微调模型，支持日语语音识别任务。

Transformers 日语

Wav2vec2 Large Xlsr 53 Japanese

基于facebook/wav2vec2-large-xlsr-53模型微调的日语语音识别模型，支持16kHz采样率的语音输入

语音识别日语

Wav2vec2 Large Xlsr Japanese Hiragana

基于facebook/wav2vec2-large-xlsr-53模型微调的日语语音识别模型，支持平假名输出

Transformers 日语

Wav2vec2 Live Japanese

基于facebook/wav2vec2-large-xlsr-53微调的日语语音识别模型，支持平假名输出

Transformers 日语

Wav2vec2 Xls R 300m Japanese

这是一个基于facebook/wav2vec2-xls-r-300m在日语Common Voice 8.0数据集上微调的自动语音识别(ASR)模型，支持日语语音转文字功能。

Transformers 日语

Wav2vec2 Large Japanese

基于facebook/wav2vec2-large-xlsr-53模型微调的日语语音识别模型，支持16kHz采样率输入

语音识别日语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24