I

Ichigo Llama3.1 S Instruct V0.4

由 homebrewltd 开发
基于Llama-3架构的多模态语言模型,支持音频和文本输入理解,具有噪声鲁棒性和多轮对话能力
下载量 486
发布时间 : 11/8/2024
模型介绍
内容详情
替代品

模型简介

该模型是基于Llama-3架构开发的语音-文本多模态模型,通过监督微调增强了语音理解能力,特别优化了环境噪声下的表现和多轮对话能力

模型特点

多模态输入支持
原生支持音频和文本输入,能够理解语音内容并生成文本响应
噪声鲁棒性
在训练中加入了噪声抑制能力,在嘈杂环境下仍能保持良好表现
多轮对话优化
通过新增的多轮语音对话数据训练,增强了对话连贯性
高效训练
使用torchtune库实现FSDP2训练,优化了训练效率

模型能力

语音转文本
文本生成
多轮对话
噪声环境理解

使用案例

语音助手
智能语音助手
构建能够理解语音指令并做出回应的智能助手
在AudioBench评估中获得3.5分(GPT-4-O评分)
语音转录
会议记录转录
将会议语音内容实时转录为文字
教育应用
语言学习助手
帮助学习者练习英语听力和口语