V

Voxtral Mini 3B 2507 Transformers

由 MohamedRashad 开发
Voxtral Mini是基于Ministral 3B的增强版本,具备先进的音频输入能力,在语音转录、翻译和音频理解等方面表现出色。
下载量 416
发布时间 : 7/18/2025

模型简介

Voxtral Mini是一个结合文本和音频处理能力的多模态模型,保留了Ministral 3B的文本处理能力,同时增加了强大的音频理解功能。

模型特点

专用转录模式
可以在纯语音转录模式下运行,自动识别源音频语言并进行文本转录
长上下文处理
支持32k标记的上下文长度,可处理长达30-40分钟的音频
内置问答和摘要功能
支持直接通过音频提问并生成结构化摘要,无需单独的ASR和语言模型
原生多语言支持
自动检测并支持8种主要语言的音频处理
语音直接调用功能
能够根据语音意图直接触发后端功能、工作流或API调用

模型能力

语音转录
音频理解
多语言支持
长音频处理
文本生成
问答系统
摘要生成
多轮对话

使用案例

语音处理
会议记录转录
将长达30分钟的会议录音自动转录为文字
高准确率的转录文本
多语言语音翻译
将一种语言的语音实时翻译为另一种语言的文本
支持8种主要语言的互译
音频分析
音频内容理解
直接对音频内容提问并获取答案
无需先转录即可理解音频内容
音频摘要生成
分析长音频并生成结构化摘要
节省人工整理时间
AIbase
智启未来,您的人工智能解决方案智库
简体中文