S

Slam Scaled

由 slprl 开发
在单块GPU上24小时内训练出的高质量语音语言模型,基于Qwen2.5-0.5B微调,使用Hubert标记作为词汇表
下载量 792
发布时间 : 2/18/2025
模型介绍
内容详情
替代品

模型简介

专注于语音片段生成的语音语言模型,支持通过离散语音标记进行高效训练和推理

模型特点

高效训练
仅需单块学术级GPU在24小时内完成高质量模型训练
语音标记处理
使用mhubert-25hz提取的500个语音标记作为词汇表
多阶段优化
结合预训练和DPO偏好优化,提升生成质量
低资源需求
仅需2块A100 GPU完成48小时训练,计算成本极低

模型能力

语音片段生成
语音延续预测
语音标记处理

使用案例

语音生成
语音故事续写
根据给定语音片段生成连贯的后续内容
在sStoryCloze测试集上达到61.30%准确率
语音交互系统
作为语音对话系统的生成组件
教育应用
语言学习辅助
生成语音练习材料