Euclid-convnext-xxlarge-120524开源多模态模型 - 强化几何感知实现高保真视觉分析

首页

Euclid Convnext Xxlarge 120524

由 euclid-multimodal 开发

专为强化低级几何感知能力训练的多模态大语言模型，通过合成高保真视觉描述增强几何分析能力

文本生成图像

Transformers

英语开源协议:Apache-2.0 #几何感知强化 #合成数据训练 #机器人视觉

下载量 22

发布时间 : 12/3/2024

模型简介

结合ConvNeXt视觉编码器与Qwen-2.5语言模型的多模态模型，在160万张合成几何图像及问答对上训练，擅长精确的几何关系检测和分析

模型特点

高保真几何感知

通过合成几何图像和精确标注的问答对训练，实现毫米级几何关系识别

课程学习架构

采用渐进式训练策略，从简单几何元素到复杂关系逐步提升模型能力

多模态融合

创新性地将ConvNeXt视觉特征与语言模型通过双层MLP进行高效对齐

模型能力

点线关系检测

点圆关系检测

角度分类

长度比较

几何标注理解

几何证明验证

几何等式求解

使用案例

工业检测

机械零件尺寸测量

自动检测零件图纸中的关键尺寸关系

在长度比较任务中达到90.82%准确率

医疗影像

解剖结构分析

识别医学影像中的器官几何特征

教育科技

几何证明辅助

验证学生提交的几何证明步骤

在证明验证任务中达到70.52%准确率

🚀 Euclid - convnext - xxlarge 模型卡片（2024年12月5日版本）

Euclid是一个专门为强大的低级几何感知而训练的多模态大语言模型，它能有效处理多种几何感知任务，为相关领域的应用提供了有力支持。

🚀 快速开始

首先克隆Euclid [仓库](https://github.com/euclid - multimodal/Euclid)，设置好环境，然后运行以下命令：

pip install -U "huggingface_hub[cli]"
huggingface-cli download --cache-dir $MODEL_PATH EuclidAI/Euclid-convnext-xxlarge
python euclid/eval/run_euclid_geo.py --model_path $MODEL_PATH --device cuda

✨ 主要特性

专业训练：使用课程学习方法，在160万张具有高保真问答对的合成几何图像上进行训练。
架构组合：将ConvNeXt视觉编码器与Qwen - 2.5语言模型相结合，并通过2层MLP多模态连接器连接。
精准感知：能够执行点在线上检测、点在圆上检测、角度分类、长度比较和几何注释理解等精确的低级几何感知任务。

📚 详细文档

模型详情

模型描述

Euclid使用课程学习方法，在160万张具有高保真问答对的合成几何图像上进行训练。它将ConvNeXt视觉编码器与Qwen - 2.5语言模型相结合，并通过2层MLP多模态连接器连接。

模型来源

仓库：https://github.com/euclid - multimodal/Euclid
论文：https://arxiv.org/abs/2412.08737
演示：https://euclid - multimodal.github.io/

应用场景

该模型针对精确的低级几何感知任务进行训练，能够执行以下任务：

点在线上检测
点在圆上检测
角度分类
长度比较
几何注释理解

完整的输入格式请参考我们的[仓库](https://github.com/euclid - multimodal/Euclid)。

局限性与应用领域

我们的模型不适用于处理以下任务：

全面的图像理解任务
超出几何分析的高级认知推理

然而，该模型在低级视觉感知方面表现出色。这种能力使其有潜力作为专门的下游微调基础模型，包括：

机器人视觉和自动化系统
医学成像和诊断支持
工业质量保证和检查
几何教育和可视化工具

评估结果

在几何感知基准任务上的性能表现如下：

模型	点在线上检测(POL)	点在圆上检测(POC)	角度分类(ALC)	长度比较(LHC)	点对误差百分比(PEP)	点对召回率(PRA)	相等长度检测(EQL)	总体
随机基线	0.43	2.63	59.92	51.36	0.25	0.00	0.02	16.37
Pixtral - 12B	22.85	53.21	47.33	51.43	22.53	37.11	58.45	41.84
Gemini - 1.5 - Pro	24.42	69.80	57.96	79.05	39.60	77.59	52.27	57.24
EUCLID - ConvNeXt - Large	80.54	57.76	86.37	88.24	42.23	64.94	34.45	64.93
EUCLID - ConvNeXt - XXLarge	82.98	61.45	90.56	90.82	46.96	70.52	31.94	67.89

引用说明

如果您发现Euclid对您的研究和应用有帮助，请使用以下BibTeX进行引用：

@article{zhang2024euclid,
  title={Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions},
  author={Zhang, Jiarui and Liu, Ollie and Yu, Tianyu and Hu, Jinyi and Neiswanger, Willie},
  journal={arXiv preprint arXiv:2412.08737},
  year={2024}
}