license: apache-2.0
library_name: transformers
(简体中文|English)

[更新日志]
8.29: 创建代码库,发布README和开发路线图
8.31: 上线演示站点(https://voice-playground.91jzx.cn)
9.02: 发布推理代码
9.12: 发布FlowMirror-s-v0.2-checkpoint-20240828模型
项目动机
尽管文本仍是互联网主导语言形式,但在教学、医疗咨询等场景中,直接语音沟通仍不可替代。尤其对于学龄前儿童及文盲群体,通过听说即可实现充分交流表达,证明纯语音交互能提供足够的沟通智能。口语(无文本)交流天然蕴含丰富表达信息,在教育培训等场景中比单纯ASR转换的文本更具价值。
此外,本项目灵感源自OpenAI展示的GPT-4教育应用案例视频中呈现的能力。
团队背景
浙江精准学是由阿里投资的教育科技公司,专注研发AI学习硬件及软件产品。精准学AI团队致力于通过AI技术实现媲美甚至超越真人教育的主动学习体验,同时努力降低技术成本,让优质教育触手可及。
技术背景
据我们所知,最早的端到端语音模型源自Meta的Speechbot GLSM系列。以下研究为我们的工作提供了重要参考:
- SpiritLM:Nguyen等人(2024)探索了语音与文本语言模型的交织论文
- GLSM:Lakhotia等人(2021)开发了基于原始音频的生成式口语模型论文
- AudioLM:Borsos等人(2023)提出了音频生成的语言建模方法论文
- SpeechGPT:Zhang等人(2023)增强了LLM的跨模态对话能力论文
- SpeechFlow:Liu等人(2024)提出了基于流匹配的语音生成预训练方法论文
技术方案
我们将语音预训练视为学习语音中语义与声学双重表征的过程。基于文本LLM初始化可实现文本与音频表征的统一学习,并大幅降低工程复杂度。因此采用两阶段训练方案:
由于缺乏支持中文(特别是教育词汇)的自监督语音编码器,我们基于Meta HuBERT论文开发了专注语义信息的自监督语音编码器。受RVQVAE启发,使用海量中文语音数据从头训练了9层码本的声学信息编码器。

基于这些预训练编解码器,我们以qwen2系列LLM为基座参数。如图所示,采用非对称结构——输入以语义单元为主,输出同时包含声学单元和文本。

FlowMirror-s v0.1和v0.2分别使用2万小时和5万小时语音数据预训练,支持ASR、TTS、语音续写和语音对话等任务。初步验证了端到端语音模型的可行性,网络设计展现出良好的扩展性,预示后续版本将具备更强能力。
效果评估
定性评估可参考以下对话示例:
示例1 = "人在没有目标的时候才应该有压力"
示例2 = "这个阶段需要学习什么知识?"
示例3 = "怎么把事情做对要花时间去培养"
示例4 = "这里的药材长势不错"
语音对话示例
示例1: "人在没有目标的时候才应该有压力"
输入语音
输出语音
示例2: "这里的药材长势不错"
输入语音
输出语音
演示站点
演示部署于https://voice-playground.91jzx.cn,因资源限制支持10人同时使用。当前部署版本为心流知镜-s v0.2-240822-checkpoint,后续将更新至v0.2和v0.3最新权重。
多任务评估
本项目中ASR子任务被视为预训练中语音语义信息学习效果的评估指标。当前checkpoint在第一阶段预训练时ASR性能约相当于Whisper-small。评估数据包含未参与训练的公开网络语音数据及未参与端到端训练的Wenet数据,各随机采样1024句进行评估。
数据来源 |
数量 |
中文CER/WER |
公开数据集-测试集 |
1,024 |
12.55% |
WenetSpeech-测试集 |
1,024 |
24.23% |
由于当前checkpoint处于训练早期,预计随着数据量和训练时长增加,即使不扩大模型规模,语音语义与文本的对齐效果也将显著提升。
[待办事项]
将补充AudioBench评估数据
注:亟需构建中文版AudioBench以实现更全面评估
局限性
- 三阶段训练中未使用常规文本LLM预训练数据,相比原qwen2模型可能导致MMLU评测性能下降,后续版本将改进
- 当前版本仅控制说话人音色,尚未对情绪、韵律、语速、停顿、非语言声音、音高等语音特性进行调优
- 对话响应偶现答非所问现象(如语音同音字导致的误解)。现阶段受限于参数量(1.5B)及预训练语音数据主题分布特殊性,加之数据预处理瓶颈,预计随着数据量增加和针对性数据补充将显著改善
- 当前版本暂不支持多轮对话
- 推理速度有较大优化空间,当前L20显卡TTFB约670ms。预计通过TensorRT等优化技术,即使不量化也能实现数量级的吞吐提升
许可声明
因v0.1-v0.3使用了WenetSpeech数据进行自监督编码器训练,自监督预训练语音编码器及端到端checkpoint权重文件限于学术用途。代码采用Apache 2.0许可。
为促进中文及亚洲语言语音模型探索,我们计划发布基于公开采集数据(不含Wenet)训练的新版本,提供使用更自由的自监督编码器与解码器。
发展路线
2024年8月
心流知镜-s v0.1 & 0.2 (5亿-15亿参数)
- [x] 中文自监督音频编解码器
- [x] 心流知镜-s v0.1 & v0.2
- [x] 基于WebRTC的体验网站
- [x] 语音&文本双输出
⠀
2024年9月
心流知镜-s v0.2
- [x] 开源模型权重及推理代码
- [ ] 加速推理版本
- [ ] 端侧部署支持
- [ ] 发布学术用自监督语音编码器与音频编解码器权重
⠀
2024年10月
心流知镜-s v0.3
- [ ] 增强中小学学科教学能力
- [ ] 支持对话中说话人音色选择
- [ ] 富有表现力的语音(情绪/音量/音高/语速等)
- [ ] 构建以中文为主的AudioBench评估数据集
⠀
2024年11月
心流知镜-s v0.3 - 多语言版
- [ ] 支持东亚及全球主要语言
- [ ] 支持多语言交互对话
⠀
2024年12月
心流知镜-s v0.4
- [ ] 支持教育场景高质量全双工对话
- [ ] 更大模型规模
⠀
2025年1月
心流知镜-s v0.5
⠀
2025年3月
心流知镜-s1
人才招聘
诚聘以下方向人才(含组长岗):
- 语音ASR/TTS/对话SLLM
- 角色扮演LLM模型
- 多模态模型推理加速
- 视觉理解与文档智能
- 人物视频生成通用框架
社区交流
钉钉群:90720015617
