S

Speechgpt 7B Cm

由 fnlp 开发
SpeechGPT是一个具备内在跨模态对话能力的大型语言模型,能够感知和生成多模态内容,支持语音与文本的交互。
下载量 47
发布时间 : 9/14/2023
模型介绍
内容详情
替代品

模型简介

SpeechGPT通过离散语音表示和三阶段训练策略(模态适应预训练、跨模态指令微调、模态链式指令微调),实现了语音与文本的对齐,能够处理多种跨模态任务。

模型特点

跨模态对话能力
能够同时处理语音和文本输入输出,实现跨模态交互。
三阶段训练策略
通过模态适应预训练、跨模态指令微调和模态链式指令微调三个阶段,逐步提升模型性能。
大规模语音指令数据集
构建了SpeechInstruct数据集,包含跨模态指令和模态链式指令。

模型能力

语音识别
语音合成
跨模态对话
文本生成
多模态指令跟随

使用案例

个人助理
语音问答
通过语音提问获取信息回答
提供准确的语音或文本响应
教育
语言学习
帮助学习者练习英语听说能力
提供语音交互和发音反馈