G

Granite Speech 3.2 8b

由 ibm-granite 开发
Granite-speech-3.2-8b 是一款紧凑高效的语音语言模型,专为自动语音识别(ASR)和自动语音翻译(AST)设计。
下载量 3,335
发布时间 : 3/26/2025
模型介绍
内容详情
替代品

模型简介

该模型采用两阶段设计,首次调用将音频文件转录为文本,若需进一步处理转录文本,需再次调用底层 Granite 语言模型。适用于企业级语音输入处理应用。

模型特点

两阶段设计
首次调用将音频转录为文本,需显式触发底层语言模型进行进一步处理,提升模块化和安全性。
模态对齐技术
在包含音频输入和文本目标的语料库上进行语音适配训练,优化语音处理能力。
高效架构
结合Conformer块、窗口查询变换器和LoRA适配器,实现高效语音处理。

模型能力

英语语音转文本
英语到其他语言的语音翻译
自动语音识别
自动语音翻译

使用案例

语音处理
企业级语音转录
将会议录音、客服通话等英语语音内容转录为文本。
高准确率的英语语音转文本
跨语言语音翻译
将英语语音翻译为法语、西班牙语、意大利语、德语、葡萄牙语、日语或中文。
支持多种语言的语音翻译