C

Csm 1b Hf

由 thomasgauthier 开发
芝麻科技会话语音模型(CSM)的Hugging Face实现版本,支持文本转语音和语音克隆任务
下载量 3,974
发布时间 : 3/26/2025
模型介绍
内容详情
替代品

模型简介

这是芝麻科技CSM 1B模型的Hugging Face兼容版本,完全重写了官方实现,支持与Hugging Face生态系统的全面集成,包括推理和训练流程。

模型特点

Hugging Face兼容
完全重写实现以兼容Hugging Face生态系统,支持transformers库的所有功能
两阶段自回归架构
采用帧间处理和帧内处理的双阶段设计,有效建模长距离依赖关系
计算摊销训练
采用解码器训练摊销技术,仅训练部分帧的1-31码本,提高训练效率
多模态输入支持
支持处理交错的文本和音频输入数据

模型能力

文本转语音合成
语音克隆
多码本音频标记化
长距离语音建模

使用案例

语音合成
个性化语音助手
为虚拟助手生成自然的人声响应
可生成带有特定说话者特征的语音
语音内容创作
将文本内容自动转换为语音
支持高质量语音输出
语音克隆
个性化语音克隆
基于少量样本克隆特定说话者的声音特征
示例显示可成功克隆说话者声音