Xinyuan-VL-2B开源多模态大模型 - 终端侧高性能应用首选

首页

Xinyuan VL 2B

由 Cylingo 开发

Xinyuan-VL-2B 是赛灵格集团推出的面向终端侧的高性能多模态大模型，基于 Qwen/Qwen2-VL-2B-Instruct 微调而成，使用了超过500万条多模态数据及少量纯文本数据。

文本生成图像

Transformers

支持多种语言开源协议:Apache-2.0 #终端侧多模态 #中英双语理解 #视觉问答优化

下载量 94

发布时间 : 9/24/2024

模型简介

Xinyuan-VL-2B 是一个高性能的多模态大模型，专注于视觉问答任务，支持中英文，适用于终端侧应用。

模型特点

高性能多模态

在多个权威基准测试中表现优异，超越同规模开源模型。

终端侧优化

专为终端侧应用设计，适合部署在资源有限的设备上。

中英双语支持

支持中文和英文的多模态理解和生成任务。

模型能力

视觉问答

图像描述生成

多模态理解

文本生成

使用案例

智能客服

图像问答

用户上传图片并提问，模型生成准确的回答。

在 MMB-CN-V11 测试版上达到 74.3 的准确率。

教育

图表理解

帮助学生理解复杂的图表和图像内容。

在 AI2D 图表理解测试中达到 74.2 的准确率。

🚀 鑫源多模态大模型Xinyuan-VL-2B

鑫源多模态大模型Xinyuan-VL-2B是Cylingo集团推出的一款端侧高性能多模态大模型。它基于Qwen/Qwen2-VL-2B-Instruct进行微调，使用了超500万的多模态数据以及少量纯文本数据进行训练。该模型在多个权威基准测试中表现出色。

🚀 快速开始

为了借助开源社区蓬勃发展的生态，我们选择在Qwen/Qwen2-VL-2B-Instruct的基础上进行微调，从而形成了我们的Cylingo/Xinyuan-VL-2B。因此，使用Cylingo/Xinyuan-VL-2B的方式与使用Qwen/Qwen2-VL-2B-Instruct一致。

💻 使用示例

基础用法

from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info

# default: Load the model on the available device(s)
model = Qwen2VLForConditionalGeneration.from_pretrained(
    "Cylingo/Xinyuan-VL-2B", torch_dtype="auto", device_map="auto"
)

# default processer
processor = AutoProcessor.from_pretrained("Cylingo/Xinyuan-VL-2B")

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
            },
            {"type": "text", "text": "Describe this image."},
        ],
    }
]

# Preparation for inference
text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to("cuda")

# Inference: Generation of the output
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

🔧 评估

我们使用VLMEvalKit工具包对**鑫源多模态大模型XinYuan-VL-2B** 在以下基准测试中进行了评估，发现鑫源多模态大模型XinYuan-VL-2B 表现优于阿里云发布的Qwen/Qwen2-VL-2B-Instruct，以及在开源社区有重大影响力的其他参数规模相当的模型。

评估结果

你可以在opencompass/open_vlm_leaderboard中查看具体结果：

基准测试	MiniCPM - 2B	InternVL - 2B	Qwen2 - VL - 2B	鑫源多模态大模型XinYuan-VL-2B
MMB - CN - V11 - Test	64.5	68.9	71.2	74.3
MMB - EN - V11 - Test	65.8	70.2	73.2	76.5
MMB - EN	69.1	74.4	74.3	78.9
MMB - CN	66.5	71.2	73.8	76.12
CCBench	45.3	74.7	53.7	55.5
MMT - Bench	53.5	50.8	54.5	55.2
RealWorld	55.8	57.3	62.9	63.9
SEEDBench_IMG	67.1	70.9	72.86	73.4
AI2D	56.3	74.1	74.7	74.2
MMMU	38.2	36.3	41.1	40.9
HallusionBench	36.2	36.2	42.4	55.00
POPE	86.3	86.3	86.82	89.42
MME	1808.6	1876.8	1872.0	1854.9
MMStar	39.1	49.8	47.5	51.87
SEEDBench2_Plus	51.9	59.9	62.23	62.98
BLINK	41.2	42.8	43.92	42.98
OCRBench	605	781	794	782
TextVQA	74.1	73.4	79.7	77.6