Phi-4-multimodal-instruct-ko-asr开源模型 - 韩语语音识别及翻译，数据集表现优异

Phi 4 Multimodal Instruct Ko Asr

由 junnei 开发

基于microsoft/Phi-4-multimodal-instruct微调的韩语自动语音识别(ASR)和语音翻译(AST)模型，在zeroth-korean和fleurs数据集上表现优异。

下载量 354

发布时间 : 3/5/2025

模型简介

该模型专注于韩语语音识别和翻译任务，通过微调提升了在韩语环境下的识别准确率和翻译质量。

高性能韩语识别

在zeroth-korean测试集上达到1.316的字符错误率(CER)和2.951的单词错误率(WER)

多任务支持

同时支持自动语音识别(ASR)和语音翻译(AST)任务

优化训练

使用H100 GPU进行960步针对性训练，显著提升韩语处理能力

韩语语音识别

韩英语音翻译

英韩语音翻译

语音转写

韩语会议记录

将韩语会议录音实时转写为文字

在zeroth测试集上字符错误率仅1.316%

语音翻译

韩英实时翻译

将韩语语音实时翻译为英语文本

在fleurs测试集上BLEU分数达67.659

属性	详情
库名称	transformers
数据集	Bingsu/zeroth-korean、google/fleurs
语言	韩语
评估指标	CER、WER、BLEU
基础模型	microsoft/Phi-4-multimodal-instruct
模型索引名称	Phi-4-multimodal-instruct-ko-asr
任务类型	自动语音识别

模型	zeroth-CER	zeroth-WER	fleurs-ko_en-BLEU	fleurs-ko_en-cot-BLEU	fleurs-en_ko-BLEU	fleurs-en_ko-cot-BLEU
原始模型	198.32	-	5.63	2.42	6.86	4.17
daekeun-ml/Phi-4-multimodal-finetune-ko-speech	1.61	3.54	7.67	8.38	12.31	9.69
seastar105/Phi-4-mm-inst-zeroth-kor	7.02	-	7.07	9.19	13.08	9.35
ASR 微调模型（本模型）	1.31	2.95	7.46	6.24	12.15	8.91
+ 使用 Covost-Ko 进行 1 个轮次微调	3.88	-	8.07	10.09	18.82	15.41
AST 微调模型	1.77	2.99	8.01	9.09	17.09	11.82