E

Emova Qwen 2 5 3b

由 Emova-ollm 开发
EMOVA是一种端到端全能模态大语言模型,支持视觉、听觉和语音功能,能够生成具有情感控制的文本和语音响应。
下载量 25
发布时间 : 4/25/2025
模型介绍
内容详情
替代品

模型简介

EMOVA是一种新颖的端到端全能模态大语言模型,无需依赖外部模型即可实现视觉、听觉和语音功能。支持双语(中文和英文)语音对话,并提供24种语音风格控制。

模型特点

全能模态性能
在视觉语言和语音基准测试中同时达到领先的可比结果。
情感语音对话
采用语义-声学解耦的语音分词器和轻量级风格控制模块,实现无缝的全能模态对齐和多样化的语音风格可控性。
多样化配置
提供3种配置(3B/7B/72B),支持不同计算预算下的全能模态使用。

模型能力

视觉语言理解
语音识别
情感语音生成
多模态对话
结构化数据理解

使用案例

智能助手
情感语音助手
生成具有情感色彩的语音响应,提升用户体验。
支持24种语音风格控制。
教育
多模态学习助手
帮助学生理解复杂的视觉和文本内容。
在ScienceQA-图像基准测试中达到92.7%准确率。