C

Csm 1b Safetensors Fp16

由 lunahr 开发
CSM(对话语音模型)是由Sesame开发的10亿参数语音生成模型,可通过文本和音频输入生成RVQ音频编码。
下载量 79
发布时间 : 4/25/2025
模型介绍
内容详情
替代品

模型简介

该模型采用Llama主干网络和轻量级音频解码器,可生成Mimi音频编码,适用于文本转语音任务。

模型特点

多说话人支持
模型支持指定不同说话人ID,可生成不同音色的语音
上下文感知
能够利用对话上下文生成更自然的语音输出
高效架构
基于Llama主干网络和轻量级解码器,平衡性能与效率

模型能力

文本转语音
多说话人语音生成
上下文感知语音合成

使用案例

交互式语音应用
语音助手
为虚拟助手提供自然语音输出
在Sesame的交互式语音演示中展示
对话系统
生成连贯的对话语音
能够根据上下文调整语音风格