U

Ultravox V0 5 Llama 3 3 70b Tempfix

由 zhuexe 开发
Ultravox 是一个多模态语音大语言模型,能够同时接收语音和文本作为输入,支持多种语言和任务。
下载量 35
发布时间 : 5/2/2025

模型简介

Ultravox 是一个基于 Llama3.3-70B-Instruct 和 whisper-large-v3-turbo 的多模态模型,能够处理语音和文本输入,适用于语音代理、语音翻译和语音分析等任务。

模型特点

多模态输入
支持同时接收语音和文本输入,通过特殊伪标记 `<|audio|>` 处理音频嵌入。
多语言支持
支持超过 40 种语言,适用于全球多语言应用场景。
高性能推理
首次令牌生成时间(TTFT)约为 150 毫秒,令牌生成速度为每秒 50-100 个。

模型能力

语音识别
语音翻译
语音分析
多模态输入处理
文本生成

使用案例

语音代理
语音助手
作为语音代理,回答用户问题并提供帮助。
高效处理语音输入并生成自然语言响应。
语音翻译
多语言语音翻译
将一种语言的语音翻译成另一种语言的文本或语音。
在多个语言对中表现优异,如英语到中文的 BLEU 分数为 21.37。
语音分析
语音内容分析
分析语音内容并提取关键信息。
支持多种语言和复杂场景的语音分析。
AIbase
智启未来,您的人工智能解决方案智库
简体中文