开源协议: mit
支持语言:
- 英语
基础模型:
- Qwen/Qwen2.5-1.5B-Instruct
库名称: transformers
Aero-1-Audio 音频模型
Aero-1-Audio
是一款轻量级音频模型,擅长语音识别、音频理解及执行音频指令等多元任务。
-
基于Qwen-2.5-1.5B语言模型构建,Aero在多项音频基准测试中表现优异。即使与Whisper、Qwen-2-Audio、Phi-4-Multimodal等更大规模模型或ElevenLabs/Scribe等商业服务相比,仍保持参数高效性。
-
该模型仅用16张H100显卡和5万小时音频数据,在一天内完成训练。实验表明:高质量过滤数据可显著提升音频模型的训练样本效率。
-
Aero能精准处理长达15分钟的连续音频输入(包括ASR和语义理解),当前多数模型在此场景下仍面临挑战。
- 开发团队: [LMMs-Lab]
- 模型类型: [大语言模型+音频编码器]
- 支持语言: [英语]
- 开源协议: [MIT]
快速开始
通过以下代码调用模型:
建议安装指定版本transformers:
python3 -m pip install transformers@git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview
基础示例
from transformers import AutoProcessor, AutoModelForCausalLM
import torch
import librosa
def load_audio():
return librosa.load(librosa.ex("libri1"), sr=16000)[0]
processor = AutoProcessor.from_pretrained("lmms-lab/Aero-1-Audio-1.5B", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("lmms-lab/Aero-1-Audio-1.5B", device_map="cuda", torch_dtype="auto", attn_implementation="flash_attention_2", trust_remote_code=True)
model.eval()
messages = [{
"role": "user",
"content": [
{"type": "audio_url", "audio": "placeholder"},
{"type": "text", "text": "请转录音频内容"}
]
}]
audios = [load_audio()]
prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(text=prompt, audios=audios, sampling_rate=16000, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, eos_token_id=151645, max_new_tokens=4096)
print(processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:], skip_special_tokens=True)[0])
批量推理
模型支持transformers批量处理:
messages = [messages, messages]
audios = [load_audio(), load_audio_2()]
processor.tokenizer.padding_side = "left"
inputs = processor(text=prompt, audios=audios, sampling_rate=16000, return_tensors="pt", padding=True).to("cuda")
outputs = model.generate(**inputs, eos_token_id=151645, pad_token_id=151643, max_new_tokens=4096)
print(processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:], skip_special_tokens=True)
训练详情
训练数据
我们整合了20+个公开数据集,数据量仅为其他模型的1/100却保持竞争力:


*注:部分数据集时长存在估算误差
核心优势在于数据质量——约50,000小时音频(对应50亿token)全部来自开源数据集。相较Qwen-Omni和Phi-4等模型,数据量缩减百倍仍实现可比性能。下方图表详细展示了数据构成及横向对比。