U

Ultravox V0 4 1 Mistral Nemo

由 fixie-ai 开发
Ultravox 是一个基于 Mistral-Nemo 和 Whisper 的多模态模型,可同时处理语音和文本输入,适用于语音代理、语音翻译等任务。
下载量 1,285
发布时间 : 11/7/2024
模型介绍
内容详情
替代品

模型简介

Ultravox 是一个多模态语音大语言模型,能够接收语音和文本作为输入,并生成文本输出。它结合了 Mistral-Nemo 的语言理解能力和 Whisper 的语音处理能力。

模型特点

多模态输入
可同时接收语音和文本输入,通过特殊标记 <|audio|> 处理音频嵌入
多语言支持
支持15种语言的语音和文本处理
高效推理
首次令牌生成时间约150毫秒,每秒可生成50-100个令牌
知识蒸馏训练
使用知识蒸馏损失函数,匹配基于文本的Mistral主干模型的逻辑输出

模型能力

语音识别
语音翻译
语音对话
多语言处理
文本生成

使用案例

语音交互
语音代理
作为能听能说的智能代理与人交互
翻译服务
语音到语音翻译
将一种语言的语音翻译成另一种语言的文本
在英语-德语翻译上达到28.39 BLEU分数
语音分析
语音内容理解
分析语音内容并生成摘要或回答