U

Ultravox V0 5 Llama 3 2 1b ONNX

由 onnx-community 开发
Ultravox是一个多语言音频转文本模型,基于LLaMA-3-2.1B架构优化,支持多种语言的语音识别和转录任务。
下载量 1,088
发布时间 : 2/19/2025
模型介绍
内容详情
替代品

模型简介

该模型专注于音频到文本的转换任务,能够处理多种语言的语音输入并生成准确的文本转录。

模型特点

多语言支持
支持超过40种语言的音频转录,包括多种欧洲、亚洲和非洲语言。
高效量化
提供多种量化选项(q8, q4等),可在保持性能的同时减少模型大小和计算需求。
对话式转录
能够理解上下文并生成符合对话场景的转录结果,而不仅仅是逐字转录。

模型能力

音频转录
多语言语音识别
对话式文本生成
实时语音处理

使用案例

会议记录
多语言会议转录
将多语言会议录音自动转录为文本,支持后续翻译和分析。
准确识别不同发言者的语音内容并生成结构化的会议记录。
媒体制作
视频字幕生成
为多语言视频内容自动生成字幕。
提高视频可访问性,减少人工字幕制作成本。
客户服务
语音客服记录
自动记录和分析客户服务通话内容。
便于质量监控和客户需求分析。