G

Granite Speech 3.3 8b

由 ibm-granite 开发
专为自动语音识别(ASR)和自动语音翻译(AST)设计的紧凑高效语音语言模型,采用双阶段设计处理音频和文本
下载量 5,532
发布时间 : 4/14/2025
模型介绍
内容详情
替代品

模型简介

基于Granite-3.3-8b-instruct适配的语音语言模型,擅长英语语音转文本及英语到多语种的语音翻译,采用模态对齐技术训练

模型特点

双阶段处理设计
先转写音频为文本,再通过底层语言模型处理文本,降低模态干扰风险
多任务支持
同时支持语音识别(ASR)和语音翻译(AST)任务
高效架构
10层Conformer编码器配合2层Transformer降采样器,实现10倍时序压缩
企业级优化
针对企业语音处理场景优化,尤其擅长英语及主流欧洲语言处理

模型能力

英语语音转文本
英语到多语种语音翻译
纯文本任务处理
长音频处理(支持128k上下文)

使用案例

语音转录
会议记录自动化
将英语会议录音实时转写为文字记录
在CommonVoice-17测试集上达到SOTA水平
跨语言沟通
实时语音翻译
英语到法语/西班牙语等语言的实时语音转换
在IWSLT测试集上超越同类8B参数模型