Mini-omni2开源多模态模型 - 支持图像、音频、文本输入及语音对话互动

首页

Mini Omni2

由 gpt-omni 开发

Mini-Omni2是一款全交互式多模态模型，能理解图像、音频和文本输入，并与用户进行端到端的语音对话。

多模态融合开源协议:MIT #实时语音对话 #多模态交互 #端到端语音输出

下载量 192

发布时间 : 10/15/2024

模型简介

Mini-Omni2具备实时语音输出、全能多模态理解以及灵活的说话时可中断交互能力，支持图像、语音和文本的多模态输入与输出。

模型特点

多模态交互

能够理解图像、语音和文本输入，执行综合任务。

实时语音对话

无需额外ASR或TTS模型，支持端到端的语音对话。

说话时可中断

支持灵活的交互中断机制，提升对话流畅度。

模型能力

图像理解

语音识别

文本生成

实时语音输出

多模态任务处理

使用案例

智能助手

多模态对话助手

通过语音、图像和文本与用户进行自然交互。

提供更自然的用户体验，支持多种输入方式。

教育

语言学习助手

通过语音交互帮助用户学习英语。

提供实时语音反馈，增强学习效果。

🚀 Mini-Omni2

Mini-Omni2是一个全交互模型，它能够理解图像、音频和文本输入，并与用户进行端到端的语音对话。该模型具有实时语音输出、全能力多模态理解以及在说话时带有中断机制的灵活交互能力。

🚀 快速开始

安装

创建一个新的conda环境并安装所需的包：

conda create -n omni python=3.10
conda activate omni

git clone https://github.com/gpt-omni/mini-omni2.git
cd mini-omni2
pip install -r requirements.txt

交互演示

启动服务器 注意：在运行Streamlit或Gradio演示之前，你需要启动服务器，并将API_URL设置为服务器地址。

sudo apt-get install ffmpeg
conda activate omni
cd mini-omni2
python3 server.py --ip '0.0.0.0' --port 60808

运行Streamlit演示 注意：你需要在本地安装PyAudio后运行Streamlit。

pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py

本地测试

conda activate omni
cd mini-omni2
# 测试运行预设的音频样本和问题
python inference_vision.py

✨ 主要特性

✅ 多模态交互：具备理解图像、语音和文本的能力，就像GPT - 4o一样。

✅ 实时语音对话能力：无需额外的ASR或TTS模型，就像Mini - Omni一样。

📦 模型更新

2024.10：发布模型、技术报告、推理和聊天演示代码。

💻 使用示例

演示

注意：需要先取消静音。 https://github.com/user-attachments/assets/ad97ca7f-f8b4-40c3-a7e8-fa54b4edf155

📚 详细文档

Mini-Omni2概述

1. 多模态建模

我们使用多个序列作为模型的输入和输出。在输入部分，我们将拼接图像、音频和文本特征以执行一系列综合任务，如下图所示。在输出部分，我们使用文本引导的延迟并行输出来生成实时语音响应。

2. 多阶段训练

我们提出了一种高效的对齐训练方法，并在三阶段训练中分别进行编码器自适应、模态对齐和多模态微调。

常见问题解答

1. 该模型是否支持其他语言？

不，该模型仅在英语上进行训练。然而，由于我们使用Whisper作为音频编码器，该模型可以理解Whisper支持的其他语言（如中文），但输出仅为英语。

2. 错误：无法在本地浏览器中运行Streamlit，使用远程Streamlit服务器

你需要在本地安装PyAudio后运行Streamlit。

🔧 技术细节

本项目参考了以下开源项目：

Qwen2 作为大语言模型骨干。
litGPT 用于训练和推理。
whisper 用于音频编码。
clip 用于图像编码。
snac 用于音频解码。
CosyVoice 用于生成合成语音。
OpenOrca 和 MOSS 用于对齐。

📄 许可证

本项目采用MIT许可证。

🤗 Hugging Face | 📖 Github | 📑 技术报告

待办事项

[ ] 更新中断机制

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文