S

Speechless Llama3.2 V0.1

由 homebrewltd 开发
Speechless是一款紧凑的开源文本转语义模型(10亿参数),旨在直接将音频转换为离散的语义表征标记,无需依赖传统的文本转语音(TTS)模型。
下载量 28
发布时间 : 12/28/2024
模型介绍
内容详情
替代品

模型简介

该模型通过直接将文本转换为语义语音标记,简化了训练流程,节省了资源,并实现了可扩展性,尤其适用于资源匮乏的语言。

模型特点

直接音频转换
无需依赖传统的文本转语音(TTS)模型,直接将音频转换为离散的语义表征标记。
资源高效
简化了训练流程,节省了资源,尤其适用于资源匮乏的语言。
多语言支持
支持英文和越南文,基于超过400小时的英文和1000小时的越南语数据训练。

模型能力

音频转语义标记
多语言处理
高效资源利用

使用案例

语音处理
语音标记生成
将音频直接转换为离散的语义表征标记,用于后续处理或分析。
词错误率在越南文测试集上为3.99,在英文测试集上为3.27。