E

Emova Qwen 2 5 7b Hf

由 Emova-ollm 开发
EMOVA是一种端到端全能模态大语言模型,支持视觉、听觉和语音功能,无需依赖外部模型即可实现多模态理解和生成。
下载量 36
发布时间 : 3/11/2025
模型介绍
内容详情
替代品

模型简介

EMOVA是一种全能模态大语言模型,能够接收文本、视觉和语音输入,并生成带有情感控制的文本和语音响应。具备高级视觉语言理解、情感语音对话以及结构化数据理解的语音对话能力。

模型特点

全能模态性能
在视觉语言和语音基准测试中取得领先的可比结果,支持文本、视觉和语音输入与输出。
情感语音对话
采用语义-声学解耦的语音分词器和轻量级风格控制模块,支持24种语音风格控制(2种说话者、3种音高和4种情感)。
多样化配置
提供3种参数规模的模型配置(3B/7B/72B),适应不同计算预算需求。

模型能力

文本生成
图像分析
语音识别
语音合成
情感控制
多模态对话

使用案例

智能助手
情感语音助手
作为智能助手,能够理解和生成带有情感的语音响应,提升用户体验。
支持24种语音风格控制,实现生动的语音交互。
视觉语言理解
图像描述生成
分析图像内容并生成详细的文本描述。
在DocVQA数据集上达到94.2%的准确率。
语音识别与合成
语音转文本
将语音输入转换为文本输出。
在LibriSpeech (clean)测试集上WER为4.1。