E

Emova Qwen 2 5 3b Hf

由 Emova-ollm 开发
EMOVA是一种端到端全能模态大语言模型,支持视觉、听觉和语音功能,具备情感语音对话能力。
下载量 101
发布时间 : 3/11/2025
模型介绍
内容详情
替代品

模型简介

EMOVA是一种新颖的端到端全能模态大语言模型,无需依赖外部模型即可实现视觉、听觉和语音功能。通过接收全能模态(即文本、视觉和语音)输入,EMOVA能够利用语音解码器和风格编码器生成带有生动情感控制的文本和语音响应。

模型特点

全能模态性能
在视觉语言和语音基准测试中同时达到顶尖可比结果,支持文本、视觉和语音输入输出。
情感语音对话
采用语义-声学解耦的语音分词器和轻量级风格控制模块,支持双语(中文和英文)语音对话和24种语音风格控制。
多样化配置
提供3B/7B/72B三种配置,支持不同计算预算下的全能模态使用。

模型能力

视觉语言理解
语音识别
情感语音生成
多模态对话
图像描述生成
文档理解
图表理解
数学问题解答

使用案例

智能助手
情感化语音助手
构建能够理解用户情感并做出相应语音回应的智能助手
支持24种语音风格控制
教育
多模态学习辅助
帮助学生理解图表、数学问题和科学概念
在ScienceQA-Img上达到92.7%准确率
客户服务
情感化客服机器人
提供带有情感色彩的客户服务对话
支持中文和英文双语服务