Ming-Lite-Omni开源多模态模型 - 高效处理图文音视频，语音图像生成佳

首页

Ming Lite Omni

由 inclusionAI 开发

轻量级统一多模态模型，高效处理图像、文本、音频和视频等多种模态数据，在语音和图像生成方面表现出色。

多模态融合

Transformers

开源协议:MIT #全模态统一处理 #轻量级MoE架构 #跨模态生成

下载量 4,215

发布时间 : 5/2/2025

模型简介

明轻全模态模型是一个轻量级的统一多模态模型，能够高效处理图像、文本、音频和视频等多种模态的数据，在语音和图像生成方面表现出色，为多模态感知和生成任务提供了强大的解决方案。

模型特点

统一全模态感知

基于Ling的MoE架构大语言模型，通过特定模态的路由机制解决任务冲突，确保不同模态的令牌能够在统一框架下高效整合。

统一感知与生成

实现了多模态数据的统一理解和生成，能够在生成过程中准确解读多模态指令和用户意图，提升生成质量和多任务的可用性。

创新生成能力

具备感知所有模态数据的能力，并能同时生成高质量的文本、自然流畅的语音和生动逼真的图像，在图像感知、视听交互和图像生成等跨模态任务中表现卓越。

模型能力

文本生成

图像分析

视频分析

语音识别

语音生成

图像生成

多模态问答

多轮对话

使用案例

问答任务

百科知识问答

回答关于鹦鹉生活习性的详细问题

提供详细的栖息地、饮食等介绍

视觉问答

图像识别问答

识别图像中的花卉种类

准确识别出forget-me-nots（勿忘我花）

视频内容理解

理解视频中人物的动作

识别出女性在屋顶做瑜伽动作

语音处理

自动语音识别

将语音转换为文字

在多个测试集上表现优异

语音到语音转换

处理语音输入并生成语音输出

🚀 明轻全模态模型（Ming-Lite-Omni）

明轻全模态模型（Ming-Lite-Omni）是一个轻量级的统一多模态模型，能够高效处理图像、文本、音频和视频等多种模态的数据，在语音和图像生成方面表现出色，为多模态感知和生成任务提供了强大的解决方案。

📑 技术报告｜📖 项目主页｜🤗 Hugging Face｜ 🤖 ModelScope

🚀 快速开始

请按照以下步骤下载并运行明轻全模态模型（Ming-Lite-Omni）：

下载模型：参考模型下载部分的说明进行操作。
安装依赖：在Python环境中执行以下命令安装所需的依赖库。

pip install -r requirements.txt
pip install data/matcha_tts-0.0.5.1-cp38-cp38-linux_x86_64.whl
pip install diffusers==0.33.0
pip install nvidia-cublas-cu12==12.4.5.8  # for H20

注意：我们在配备CUDA 12.2的NVIDIA H800 - 80GB硬件上测试了以下示例。以bfloat16格式加载inclusionAI/Ming-Lite-Omni模型大约需要40890MB的内存。 3. 运行代码示例：参考使用示例部分的代码示例进行模型的调用和推理。

✨ 主要特性

统一全模态感知：基于Ling的MoE架构大语言模型，通过特定模态的路由机制解决任务冲突，确保不同模态的令牌能够在统一框架下高效整合。
统一感知与生成：实现了多模态数据的统一理解和生成，能够在生成过程中准确解读多模态指令和用户意图，提升生成质量和多任务的可用性。
创新生成能力：具备感知所有模态数据的能力，并能同时生成高质量的文本、自然流畅的语音和生动逼真的图像，在图像感知、视听交互和图像生成等跨模态任务中表现卓越。

📦 安装指南

环境依赖安装

在Python环境中执行以下命令安装所需的依赖库：

pip install -r requirements.txt
pip install data/matcha_tts-0.0.5.1-cp38-cp38-linux_x86_64.whl
pip install diffusers==0.33.0
pip install nvidia-cublas-cu12==12.4.5.8  # for H20

💻 使用示例

基础用法

import os
import torch
from transformers import AutoProcessor, GenerationConfig
from modeling_bailingmm import BailingMMNativeForConditionalGeneration

# 构建模型
model = BailingMMNativeForConditionalGeneration.from_pretrained(
    "inclusionAI/Ming-Lite-Omni",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True
).to("cuda")

assets_path = YOUR_ASSETS_PATH

# 构建处理器
processor = AutoProcessor.from_pretrained("inclusionAI/Ming-Lite-Omni", trust_remote_code=True)

高级用法

问答任务

# qa
messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "text", "text": "请详细介绍鹦鹉的生活习性。"}
        ],
    },
]
# 输出:

# 鹦鹉是一种非常聪明和社交性强的鸟类，它们的生活习性非常丰富和有趣。以下是一些关于鹦鹉生活习性的详细介绍：
# ### 1. **栖息地**
# 鹦鹉主要分布在热带和亚热带地区，包括非洲、亚洲、澳大利亚和南美洲。它们通常生活在森林、草原、沙漠和城市环境中。不同种类的鹦鹉对栖息地的要求有所不同，但大多数鹦鹉喜欢有丰富植被和水源的地方。
# ### 2. **饮食**
# 鹦鹉是杂食性动物，它们的饮食非常多样化。它们的食物包括种子、坚果、水果、蔬菜、花蜜和昆虫。鹦鹉的喙非常强壮，能够轻松地打开坚硬的果壳和坚果。一些鹦鹉还会吃泥土或沙子，以帮助消化和补充矿物质。
# ......

图像问答任务

# image qa
messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "image", "image": os.path.join(assets_path, "flowers.jpg")},
            {"type": "text", "text": "What kind of flower is this?"},
        ],
    },
]
# 输出:

# The flowers in this image are forget - me - nots. These delicate blooms are known for their small, five - petaled flowers that come in various shades of blue, pink, and white.

视频问答任务

# video qa
messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "video", "video": os.path.join(assets_path, "yoga.mp4")},
            {"type": "text", "text": "What is the woman doing?"},
        ],
    },
]
# 输出:

# The image shows a woman performing a yoga pose on a rooftop. She's in a dynamic yoga pose, with her arms and legs extended in various positions.

多轮对话任务

# multi - turn chat
messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "text", "text": "中国的首都是哪里？"},
        ],
    },
    {
        "role": "ASSISTANT",
        "content": [
            {"type": "text", "text": "北京"},
        ],
    },
    {
        "role": "HUMAN",
        "content": [
            {"type": "text", "text": "它的占地面积是多少？有多少常住人口？"},
        ],
    },
]
# 输出:

# 北京市的总面积约为16,410.54平方公里，常住人口约为21,542,000人。

推理准备与生成调用

# 推理准备
text = processor.apply_chat_template(messages, add_generation_prompt=True)
image_inputs, video_inputs, audio_inputs = processor.process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    audios=audio_inputs,
    return_tensors="pt",
)
inputs = inputs.to(model.device)
for k in inputs.keys():
    if k == "pixel_values" or k == "pixel_values_videos" or k == "audio_feats":
        inputs[k] = inputs[k].to(dtype=torch.bfloat16)

# 调用生成方法
generation_config = GenerationConfig.from_dict({'no_repeat_ngram_size': 10})
generated_ids = model.generate(
    **inputs,
    max_new_tokens=512,
    use_cache=True,
    eos_token_id=processor.gen_terminator,
    generation_config=generation_config,
)
generated_ids_trimmed = [
        out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
    ]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
print(output_text)

音频任务

自动语音识别（ASR）

# ASR
messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "text", "text": "Please recognize the language of this speech and transcribe it. Format: oral."},
            {"type": "audio", "audio": 'data/wavs/BAC009S0915W0292.wav'},
        ],
    },
]
# 我们在ASR任务中使用whisper编码器，因此需要修改上述代码
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    audios=audio_inputs,
    return_tensors="pt",
    audio_kwargs={'use_whisper_encoder': True}
)

outputs = model.generate(
    **inputs,
    max_new_tokens=512,
    use_cache=True,
    eos_token_id=processor.gen_terminator,
    generation_config=generation_config,
    use_whisper_encoder=True
)

语音到语音转换

# speech2speech
messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "audio", "audio": 'data/wavs/speechQA_sample.wav'},
        ],
    },
]
generation_config = GenerationConfig.from_dict({
    'output_hidden_states': True,
    'return_dict_in_generate': True,
    'no_repeat_ngram_size': 10}
)

outputs = model.generate(
    **inputs,
    max_new_tokens=512,
    use_cache=True,
    eos_token_id=processor.gen_terminator,
    generation_config=generation_config,
    us

📚 详细文档

模型信息

属性	详情
基础模型	inclusionAI/Ling-lite
许可证	MIT
任务类型	任意到任意（any-to-any）
库名称	transformers

模型下载

你可以从Hugging Face和ModelScope平台下载该模型。

模型	输入模态	输出模态	下载链接
Ming-Lite-Omni	图像、文本、视频、音频	图像、文本、音频	🤗 HuggingFace 🤖 ModelScope

注意：如果你在中国内地，强烈建议你从🤖 ModelScope下载我们的模型。

使用案例

更多演示案例请参考我们的项目主页。

评估结果

明轻全模态模型（Ming-Lite-Omni）在图像感知、视听交互和图像生成等跨模态任务中表现出色。具体评估结果如下：

图像基准测试

基准测试	Ming-lite-omni	Qwen2.5-VL-7B-Instruct	InternVL2.5-8B-MPO
AI2D	83.1	84.4	84.5
HallusionBench	55.0	55.8	51.7
MMBench_TEST_V11	80.8	82.8	82.0
MMMU	56.3	56.6	54.8
MMStar	64.7	65.3	65.2
MMVet	71.3	71.6	68.1
MathVista	71.6	68.1	67.9
OCRBench	88.4	87.8	88.2
平均	71.4	71.5	70.3

百科基准测试

目标识别	Ming-lite-omni	Qwen2.5-VL-7B-Instruct
植物	54.96	47.8
动物	56.7	50.85
车辆	41.91	42.29
食物与食材	62.28	54.09
菜肴	44.3	39.07
通用	91.08	92.42
平均	58.54	54.43

视频基准测试

基准测试	Ming-lite-omni	Qwen2.5VL-7B-Instruct
VideoMME	67.0	67.3
MVBench	67.7	67.4
Video-MMMU	46.3	47.4
LongVideoBench	56.6	54.7
平均	59.4	59.2

注意：所有模型均基于128个均匀采样的帧进行评估。

音频基准测试

语音问答（SpeechQA）

模型	平均	AlpacaEval	CommonEval	SD-QA	MMSU	OpenBookQA	IFEval	AdvBench
Qwen2-Audio-chat	3.545	3.69	3.40	35.35	35.43	49.01	22.57	98.85
Baichuan-Audio	3.695	4.00	3.39	49.64	48.80	63.30	41.32	86.73
GLM-4-Voice	3.77	4.06	3.48	43.31	40.11	52.97	24.91	88.08
Kimi-Audio	4.215	4.46	3.97	63.12	62.17	83.52	61.10	100.00
Qwen2.5-Omni	4.21	4.49	3.93	55.71	61.32	81.10	52.87	99.42
Ming-lite-omni	4.34	4.63	4.06	58.84	47.53	61.98	58.36	99.04

自动语音识别（ASR）

模型	aishell1	aishell2_android	aishell2_ios	cv15_zh	fleurs_zh	wenetspeech_meeting	wenetspeech_net	librispeech_test_clean	librispeech_test_other	multilingual_librispeech	cv15_en	fleurs_en	voxpopuli_v1.0_en
Ming-lite-omni	1.47	2.55	2.52	6.31	2.96	5.95	5.46	1.44	2.80	4.15	6.89	3.39	5.80
Qwen2.-Omni	1.18	2.75	2.63	5.20	3.00	5.90	7.70	1.80	3.40	7.56	7.60	4.10	5.80
Qwen2-Audio	1.53	2.92	2.92	6.90	7.50	7.16	8.42	1.60	3.60	5.40	8.60	6.90	6.84
Kimi-Audio	0.60	2.64	2.56	7.21	2.69	6.28	5.37	1.28	2.42	5.88	10.31	4.44	7.97

信息检索基准测试

模型	InfoSeek_H-mean	InfoSeek_unseen_question	InfoSeek_unseen_entity
GPT-4o	36.05	-	-
PaLI-X	22.06	23.5	20.8
Qwen2.5-vl-32B	19.35	20.55	18.28
Ming-lite-omni	27.7	30.4	25.4

OCR基准测试

模型	Ming-lite-omni	Qwen2.5-VL-7B-Instruct
ChartQA_TEST	85.1	87.3
DocVQA_TEST	93	95.7
OCRBenchV2_en/zh	53.3/52	56.3/57.2
OmniDocBench↓	34/34.4	30.8/39.8
TextVQA_VAL	82.8	84.9

GUI基准测试

模型	Ming-lite-omni	InternVL3 8B	Qwen2.5-VL-7B-Instruct
ScreenSpot	82.1	79.5	78.9*
ScreenSpot-V2	84.1	81.4	-
AITZ(EM)	66.6	-	57.6*

注意：* 表示复现结果。

统一生成基准测试

模型	single_object	two_object	counting	colors	position	color_attr	GENEVAL	DPGBench	FID↓
Ming-lite-omni	0.9875	0.7727	0.6812	0.7872	0.31	0.29	0.64	81.72	4.85
Metaquery-XL	-	-	-	-	-	-	0.61	82.05	6.02
SDv2.1	0.98	0.51	0.44	0.85	0.07	0.17	0.50	68.09	26.96
Emu3-Gen	0.98	0.71	0.34	0.81	0.17	0.21	0.54	80.60	-
SDXL	0.98	0.74	0.39	0.85	0.15	0.23	0.55	74.65	8.76
Janus	0.97	0.68	0.30	0.84	0.46	0.42	0.61	79.68	10.10
JanusFlow	-	-	-	-	-	-	0.63	80.09	9.51

更多全面的评估结果请参考我们的技术报告。

🔧 技术细节

明轻全模态模型（Ming-lite-omni）是Ming-omni的轻量级版本，它基于Ling-lite开发，拥有28亿个激活参数。该模型采用专用编码器从不同模态中提取令牌，然后由配备新提出的特定模态路由器的MoE架构Ling进行处理。这种设计使得单个模型能够在统一框架内高效处理和融合多模态输入，从而支持多样化的任务，无需单独的模型、特定任务的微调或结构重新设计。

重要的是，Ming-lite-omni超越了传统的多模态模型，支持音频和图像生成。这是通过集成先进的音频解码器实现自然语音生成，以及使用Ming-Lite-Uni实现高质量图像生成来完成的。这些功能还使模型能够进行上下文感知的聊天、执行文本到语音转换和进行多功能图像编辑。我们的实验结果表明，Ming-lite-omni为所有模态的统一感知和生成提供了强大的解决方案。

值得注意的是，据我们所知，Ming-lite-omni是第一个在模态支持方面与GPT-4o相匹配的开源模型，我们发布了所有代码和模型权重，以鼓励社区进行进一步的研究和开发。