U

Ultravox V0 3

由 fixie-ai 开发
Ultravox 是一个基于 Llama3.1-8B-Instruct 和 Whisper-small 构建的多模态语音大语言模型,能够同时处理语音和文本输入。
下载量 48.30k
发布时间 : 7/25/2024
模型介绍
内容详情
替代品

模型简介

Ultravox 是一个多模态模型,能够接收语音和文本输入,并生成文本输出。适用于语音代理、语音到语音翻译和语音分析等任务。

模型特点

多模态输入
能够同时接收语音和文本输入,通过特殊伪标记 <|audio|> 处理音频嵌入向量。
语音理解
能够理解和处理语音内容,适用于语音代理和语音分析任务。
知识蒸馏
采用知识蒸馏损失函数,使模型能够匹配基于文本的 Llama 主干网络的逻辑输出。

模型能力

语音识别
文本生成
语音到文本翻译
语音分析

使用案例

语音代理
语音助手
作为语音助手,回答用户的问题并提供帮助。
语音翻译
语音到语音翻译
将一种语言的语音输入翻译成另一种语言的文本输出。
英译德 BLEU 22.68,西译英 BLEU 24.10
语音分析
语音内容分析
分析语音内容,提取关键信息或生成摘要。