Qwen2-Audio-7B-GGUF开源多模态模型 - 支持音频文本输入，免ASR语音交互

首页

Qwen2 Audio 7B GGUF

由 NexaAI 开发

Qwen2-Audio 是一款先进的小规模多模态模型，支持音频和文本输入，无需ASR模块即可进行语音交互。

文本生成音频英语开源协议:Apache-2.0 #多模态语音交互 #免ASR语音处理 #多语言音频分析

下载量 2,283

发布时间 : 10/23/2024

模型简介

Qwen2-Audio 是一款多模态模型，能够处理音频和文本输入，支持语音交互、音频分析等功能，适用于本地使用场景。

模型特点

多模态处理

支持音频和文本输入，无需ASR模块即可进行语音交互。

多语言支持

支持英语、中文和主要欧洲语言。

本地使用

为本地使用场景提供语音聊天和音频分析功能。

高性能

在所有任务上都显著优于之前的最优模型或Qwen-Audio。

模型能力

语音聊天

音频分析

说话人识别与回应

语音翻译与转录

混合音频和噪声检测

音乐与声音分析

使用案例

语音交互

日常问答

回答日常问题，提供建议。

语音翻译

支持多语言语音翻译。

音频分析

信息提取

从音频中提取关键信息。

音频总结

对音频内容进行总结。

🚀 Qwen2-Audio

Qwen2-Audio 是一款最先进的小规模多模态模型（AudioLM），它能够处理音频和文本输入，让你无需 ASR 模块即可进行语音交互。该模型支持英语、中文和主要欧洲语言，为本地使用场景提供语音聊天和音频分析功能，如说话人识别与回应、语音翻译与转录、混合音频和噪声检测、音乐与声音分析等。

项目展示图

🚀 快速开始

本地运行演示

我们将展示如何在你的设备上本地运行 Qwen2-Audio。

项目演示视频

更多演示请查看我们的博客

📦 安装指南

步骤 1：安装 Nexa-SDK（本地设备推理框架）

安装 Nexa-SDK

Nexa-SDK 是一个开源的本地设备推理框架，支持文本生成、图像生成、视觉语言模型（VLM）、音频语言模型、语音转文本（ASR）和文本转语音（TTS）功能。可通过 Python 包或可执行安装程序进行安装。

步骤 2：在终端中运行以下代码

nexa run qwen2audio

这将运行默认的 q4_K_M 量化版本。

对于终端操作：

将你的音频文件拖放到终端中（或在 Linux 系统中输入文件路径）
添加文本提示以指导分析，若留空则直接进行语音输入

或者使用本地用户界面（streamlit）：

nexa run qwen2audio -st

为你的设备选择量化版本

你可以在这里运行不同的量化版本，并在我们的列表中查看所需的内存（RAM）要求。

默认的 q4_K_M 版本需要 4.2GB 的内存（RAM）。

✨ 主要特性

语音聊天

回答日常问题
提供建议
说话人识别与回应
语音翻译
检测背景噪音并做出相应回应

音频分析

信息提取
音频总结
语音转录与扩展
混合音频和噪声检测
音乐与声音分析

📚 详细文档

性能基准测试

结果表明，Qwen2-Audio 在所有任务上都显著优于之前的最优模型或 Qwen-Audio。

博客

在我们的博客中了解更多信息。

加入社区

Discord | X（原 Twitter）

📄 许可证

本项目采用 Apache-2.0 许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文