G

Gemma 3 4b It Speech

由 junnei 开发
Gemma-3-MM是基于Gemma-3-4b-it扩展的多模态指令模型,新增语音处理能力,可处理文本、图像和音频输入,生成文本输出。
下载量 383
发布时间 : 3/22/2025
模型介绍
内容详情
替代品

模型简介

开源多模态指令模型,在Gemma-3基础上扩展语音处理能力,支持英语和韩语的语音识别与翻译任务。

模型特点

多模态处理能力
可同时处理文本、图像和音频输入,生成文本输出
长上下文支持
支持128K token的上下文长度(1B模型为32K)
语音适配器
通过添加596B参数的LoRA适配器扩展语音处理功能
多语言支持
支持英语和韩语的语音识别与翻译

模型能力

文本生成
语音识别
语音翻译
多模态理解

使用案例

语音转写
英语语音转录
将英语语音转换为文本
在LibriSpeech清洁版测试集上达到94.28 BLEU分数
韩语语音转录
将韩语语音转换为文本
在Zeroth测试集上达到94.91 BLEU分数
语音翻译
英韩翻译
将英语语音翻译为韩语文本
在Covost2测试集上达到31.55 BLEU分数