Holo1-7B-GGUF开源模型 - 低成本实现视觉文档检索、网页交互等多模态任务

首页

Holo1 7B GGUF

由 Mungert 开发

Holo1-7B GGUF模型是Surfer-H系统的一部分，适用于视觉文档检索等多模态任务，特别擅长网页交互和网络监控，能以较低成本实现高准确性。

图像生成文本

Transformers

英语开源协议:Apache-2.0 #超低比特量化 #多模态文档检索 #网络监控AI

下载量 663

发布时间 : 6/4/2025

模型简介

基于Qwen2.5-VL架构的多模态模型，支持图像与文本的联合处理，适用于网络监控、自动化任务和视觉文档检索等场景。

模型特点

超低比特量化技术

采用精度自适应量化方法，支持1-2比特量化，在保证内存效率的同时保留模型准确性。

多场景适用性

适用于GPU显存适配、内存受限部署、CPU和边缘设备，以及超低比特量化研究。

多模态处理能力

支持图像与文本的联合处理，适用于视觉文档检索和网页交互任务。

网络监控功能

可用于实时网络服务监控、自动化Nmap扫描、量子就绪检查等网络监控任务。

模型能力

视觉文档检索

网页交互

网络监控

多模态处理

自动化任务执行

使用案例

网络监控

自动化Nmap扫描

利用模型自动化执行网络扫描任务，检测网络服务状态。

高效完成网络扫描，降低人工成本。

量子就绪检查

检查服务器是否使用量子安全加密通信。

确保通信安全性，提升网络防护能力。

视觉文档检索

网页内容提取

从网页中提取结构化信息，如日期、价格等。

高准确性提取目标信息，提升数据处理效率。

🚀 Holo1-7B GGUF模型

Holo1-7B GGUF模型是Surfer-H系统的一部分，可用于视觉文档检索等多模态任务。该模型在处理网页交互、网络监控等方面表现出色，能以较低成本实现较高的准确性。

🚀 快速开始

Holo1模型基于Qwen2.5-VL架构，借助transformers库实现。以下是一个简单的使用示例，展示了如何加载模型和处理器：

import json
import os
from typing import Any, Literal

from transformers import AutoModelForImageTextToText, AutoProcessor

# 默认：将模型加载到可用设备上
# 建议启用flash_attention_2以实现更好的加速和内存节省。
model = AutoModelForImageTextToText.from_pretrained(
    "Hcompany/Holo1-7B",
    torch_dtype="auto",
    # torch_dtype=torch.bfloat16,
    # attn_implementation="flash_attention_2",
    device_map="auto",
)

# 默认处理器
processor = AutoProcessor.from_pretrained("Hcompany/Holo1-7B")
# 模型中每张图像的视觉标记数量的默认范围是4 - 1280。
# 可以根据需要设置min_pixels和max_pixels，例如标记范围为256 - 1280，以平衡性能和成本。
# processor = AutoProcessor.from_pretrained(model_dir, min_pixels=min_pixels, max_pixels=max_pixels)

# 运行推理的辅助函数
def run_inference(messages: list[dict[str, Any]]) -> str:
    # 推理准备
    text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
    inputs = processor(
        text=[text],
        images=image,
        padding=True,
        return_tensors="pt",
    )
    inputs = inputs.to("cuda")

    generated_ids = model.generate(**inputs, max_new_tokens=128)
    generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]
    return processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False)

✨ 主要特性

模型背景

该模型是Surfer-H系统的一部分，相关研究成果发表在论文Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights中，更多详情可查看项目页面https://www.surferh.com。

超低比特量化技术

引入了针对超低比特模型（1 - 2比特）的精度自适应量化方法，在Llama - 3 - 8B上经基准测试证明有显著改进。该方法采用特定层策略，在保证极端内存效率的同时保留准确性。

多场景适用性

适用于多种场景，如将模型适配到GPU显存、内存受限的部署、可容忍1 - 2比特误差的CPU和边缘设备，以及超低比特量化研究。

模型格式多样

提供多种模型格式，可根据硬件能力和内存限制选择合适的格式，如BF16、F16、量化模型（Q4_K、Q6_K、Q8等）以及超低比特量化模型（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）。

网络监控功能

可用于AI网络监控，包括对实时网络服务进行函数调用、自动化Nmap扫描、量子就绪检查和网络监控任务等。

📦 安装指南

文档未提及具体安装步骤，可参考transformers库的官方文档进行安装。

💻 使用示例

基础用法

import json
import os
from typing import Any, Literal

from transformers import AutoModelForImageTextToText, AutoProcessor

# default: Load the model on the available device(s)
# We recommend enabling flash_attention_2 for better acceleration and memory saving.
model = AutoModelForImageTextToText.from_pretrained(
    "Hcompany/Holo1-7B",
    torch_dtype="auto",
    # torch_dtype=torch.bfloat16,
    # attn_implementation="flash_attention_2",
    device_map="auto",
)

# default processor
processor = AutoProcessor.from_pretrained("Hcompany/Holo1-7B")
# The default range for the number of visual tokens per image in the model is 4-1280.
# You can set min_pixels and max_pixels according to your needs, such as a token range of 256-1280, to balance performance and cost.
# processor = AutoProcessor.from_pretrained(model_dir, min_pixels=min_pixels, max_pixels=max_pixels)

# Helper function to run inference
def run_inference(messages: list[dict[str, Any]]) -> str:
    # Preparation for inference
    text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
    inputs = processor(
        text=[text],
        images=image,
        padding=True,
        return_tensors="pt",
    )
    inputs = inputs.to("cuda")

    generated_ids = model.generate(**inputs, max_new_tokens=128)
    generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]
    return processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False)

高级用法

# 准备图像和指令
import requests
from PIL import Image
from transformers.models.qwen2_vl.image_processing_qwen2_vl import smart_resize

# Prepare image and instruction
image_url = "https://huggingface.co/Hcompany/Holo1-7B/resolve/main/calendar_example.jpg" 
image = Image.open(requests.get(image_url, stream=True).raw)

# Resize the image so that predicted absolute coordinates match the size of the image.
image_processor = processor.image_processor
resized_height, resized_width = smart_resize(
    image.height,
    image.width,
    factor=image_processor.patch_size * image_processor.merge_size,
    min_pixels=image_processor.min_pixels,
    max_pixels=image_processor.max_pixels,
)
image = image.resize(size=(resized_width, resized_height), resample=None)  # type: ignore

instruction = "Select July 14th as the check-out date"

# 进行定位
def get_localization_promt():
    # 此处可根据具体需求完善定位提示逻辑
    pass

📚 详细文档

模型生成细节

该模型使用llama.cpp在提交版本71bdbdb5时生成。

超低比特量化方法

基准测试背景

所有测试均在Llama - 3 - 8B - Instruct上进行，使用标准困惑度评估管道、2048令牌上下文窗口，且所有量化使用相同的提示集。

方法

动态精度分配：前/后25%的层使用IQ4_XS（选定层），中间50%使用IQ2_XXS/IQ3_S（提高效率）。
关键组件保护：嵌入/输出层使用Q5_K，与标准1 - 2比特量化相比，将误差传播降低38%。

量化性能比较（Llama - 3 - 8B）

量化方式	标准困惑度	DynamicGate困惑度	困惑度变化	标准大小	DG大小	大小变化	标准速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

使用场景

适用于将模型适配到GPU显存、内存受限的部署、可容忍1 - 2比特误差的CPU和边缘设备，以及超低比特量化研究。

选择合适的模型格式

模型格式	精度	内存使用	设备要求	最佳使用场景
BF16	最高	高	支持BF16加速的GPU/CPU	减少内存的高速推理
F16	高	高	支持FP16的设备	BF16不可用时的GPU推理
Q4_K	中低	低	CPU或低显存设备	内存受限的环境
Q6_K	中	中等	内存较多的CPU	量化模型中较好的准确性
Q8_0	高	中等	有足够显存的CPU或GPU	量化模型中最佳准确性
IQ3_XS	非常低	非常低	超低内存设备	极端内存效率和低准确性
Q4_0	低	低	ARM或低内存设备	llama.cpp可针对ARM设备优化

包含的文件及详情

文件名	说明
`Holo1-7B-bf16.gguf`	模型权重保存为BF16格式，适用于需要重新量化模型或设备支持BF16加速的情况。
`Holo1-7B-f16.gguf`	模型权重保存为F16格式，适用于设备支持FP16，尤其是BF16不可用的情况。
`Holo1-7B-bf16-q8_0.gguf`	输出和嵌入层保持为BF16，其他层量化为Q8_0，适用于设备支持BF16且需要量化版本的情况。
`Holo1-7B-f16-q8_0.gguf`	输出和嵌入层保持为F16，其他层量化为Q8_0。
`Holo1-7B-q4_k.gguf`	输出和嵌入层量化为Q8_0，其他层量化为Q4_K，适用于内存有限的CPU推理。
`Holo1-7B-q4_k_s.gguf`	最小的Q4_K变体，以牺牲准确性为代价减少内存使用，适用于极低内存设置。
`Holo1-7B-q6_k.gguf`	输出和嵌入层量化为Q8_0，其他层量化为Q6_K。
`Holo1-7B-q8_0.gguf`	完全Q8量化模型，准确性更高，但需要更多内存。
`Holo1-7B-iq3_xs.gguf`	IQ3_XS量化，针对极端内存效率进行优化，适用于超低内存设备。
`Holo1-7B-iq3_m.gguf`	IQ3_M量化，提供中等块大小以提高准确性，适用于低内存设备。
`Holo1-7B-q4_0.gguf`	纯Q4_0量化，针对ARM设备进行优化，适用于低内存环境，建议使用IQ4_NL以获得更好的准确性。