S

Speechless Llama3.2 V0.1

由 Menlo 开发
无言是一个紧凑的开源文本到语义模型(10亿参数),旨在直接将音频转换为离散的语义标记,无需依赖传统的文本转语音(TTS)模型。
下载量 39
发布时间 : 12/28/2024
模型介绍
内容详情
替代品

模型简介

无言通过直接将文本转换为语义语音标记来消除传统TTS→ASR流程的复杂性,简化训练过程,节省资源,并实现可扩展性,尤其适用于资源匮乏的语言。

模型特点

直接音频转语义标记
无需依赖传统TTS模型,直接将音频转换为离散的语义标记。
多语言支持
支持英语和越南语,特别适合资源匮乏的语言。
高效训练
简化训练流程,节省计算资源。

模型能力

音频转语义标记
多语言处理
高效资源利用

使用案例

语音处理
语音转语义标记
将音频直接转换为语义标记,用于后续处理或分析。
词错误率低至3.27(英语)和3.99(越南语)。
研究
语音模型研究
用于研究直接音频转语义标记的新方法。