S

Slam

由 slprl 开发
这是一个基于离散Hubert标记的语音语言模型,专注于高效训练,能够生成语音片段的延续。
下载量 115
发布时间 : 2/18/2025
模型介绍
内容详情
替代品

模型简介

该模型是从Qwen/Qwen2.5-0.5B微调而来,基于mhubert-25hz的第11层提取的500个语音标记的词汇表,可用于生成语音片段的延续或作为进一步调优的基础。

模型特点

高效训练
采用论文《Slamming》提出的方法,可在一天内用一块GPU完成训练。
语音标记处理
基于mhubert-25hz的第11层提取的500个语音标记的词汇表。
DPO训练
在SpokenSwag数据集上通过DPO进行训练,优化生成质量。

模型能力

语音片段延续生成
语音语言模型基础调优

使用案例

语音生成
语音故事续写
根据给定的语音故事片段生成合理的后续内容。
可用于有声读物创作或语音交互应用
语音对话延续
在语音对话系统中生成自然的回应内容。
提升对话系统的自然度和连贯性