Fintor-GUI-S2开源模型 - 专注GUI多模态任务，免费助力界面操作

首页

Fintor GUI S2

由 Fintor 开发

Fintor-GUI-S2 是一个基于 UI-TARS-7B-DPO 微调的 GUI 基础模型，专注于图形用户界面(GUI)的多模态任务。

图像生成文本

Transformers

开源协议:Apache-2.0 #GUI多模态理解 #屏幕元素定位 #指令微调增强

下载量 190

发布时间 : 3/12/2025

模型简介

该模型是针对图形用户界面(GUI)优化的多模态模型，能够理解和生成与GUI相关的文本和图像内容。

模型特点

GUI优化

专门针对图形用户界面任务进行微调，在GUI相关任务上表现优异。

多模态能力

能够同时处理图像和文本信息，实现跨模态理解与生成。

性能提升

在Screenspot基准测试上相比基础模型有显著性能提升。

模型能力

GUI图像理解

跨模态文本生成

GUI元素识别

多模态推理

使用案例

GUI自动化

GUI元素描述生成

根据GUI截图生成界面元素的描述文本

在Screenspot v2基准上达到91.8的准确率

GUI操作指导

根据GUI图像生成操作步骤说明

🚀 Fintor-GUI-S2

Fintor-GUI-S2 是一个基于图像和文本输入生成文本的模型，它在图形用户界面（GUI）基础模型方面表现出色，能有效解决 GUI 相关的文本生成问题，为多模态交互提供了强大的支持。

📦 安装指南

文档未提供具体安装步骤，故跳过此章节。

✨ 主要特性

Fintor-GUI-S2 是一个从 UI-TARS-7B-DPO 微调而来的 GUI 基础模型。
使用 OS-Copilot 数据集进行微调，训练采用了 SFT 和 LoRA 技术。

📚 详细文档

模型描述

Fintor-GUI-S2 是一个从 UI-TARS-7B-DPO 微调而来的 GUI 基础模型。

评估结果

我们使用 Screenspot 在两个基准测试集 Screenspot Pro 和 Screenspot v2 上对模型进行了评估。同时，我们还提供了在这些基准测试中使用的评估脚本。下表将我们模型的性能与基础模型的性能进行了对比：

模型	大小	Screenspot Pro	Screenspot v2
UI-TARS-7B-DPO	7B	27.0	83.0
我们的模型
Ui-Tars-7B-Instruct-Finetuned-Os-Atlas	7B	33.0	91.8

注意：基础模型的得分略低于论文中提到的分数，因为用于评估的提示未公开。我们在评估基础模型和微调模型时使用了默认提示。

训练过程

该模型使用 OS-Copilot 数据集进行微调：OS-Copilot。

此模型使用 SFT 和 LoRA 进行训练。

评估脚本

评估脚本可在此处获取 - Screenspot_Ui-Tars

💻 使用示例

基础用法

from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
# default: Load the model on the available device(s)
model = Qwen2VLForConditionalGeneration.from_pretrained(
    "Fintor/Ui-Tars-7B-Instruct-Finetuned-Os-Atlas", 
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
    device_map="auto",
)
# default processer
processor = AutoProcessor.from_pretrained("Fintor/Ui-Tars-7B-Instruct-Finetuned-Os-Atlas")
# Example input
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "path/to/image.jpeg",
            },
            {"type": "text", "text": "Describe this image."},
        ],
    }
]
# Preparation for inference
text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to("cuda")
# Inference: Generation of the output
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

📄 许可证

本模型使用 Apache-2.0 许可证。

📚 引用

文档未提供具体引用内容，故跳过此章节。

📋 模型信息

属性	详情
模型类型	图像文本到文本
训练数据	OS-Copilot/OS-Atlas-data
基础模型	bytedance-research/UI-TARS-7B-DPO
库名称	transformers
标签	多模态、GUI