RoofSense开源模型 - 免费部署实现多模态屋顶材料分类功能

首页

Roofsense

由 DimitrisMantas 开发

RoofSense是一个用于多模态屋顶材料分类的编码器-解码器语义分割模型，结合了ResNet-18-D与DeepLabv3+架构。

图像分割

Safetensors

#多模态屋顶分类 #抗锯齿注意力机制 #航拍影像分割

下载量 26

发布时间 : 4/25/2025

模型简介

该模型采用编码器-解码器架构，专门用于航拍影像和激光雷达数据的屋顶材料分类任务，通过语义分割技术实现高精度识别。

模型特点

多模态数据融合

支持航拍影像和激光雷达数据的融合处理，提升屋顶材料分类的准确性。

改进的编码器架构

编码器模块增加了抗锯齿和高效通道注意力机制，优化了特征提取能力。

优化的解码器设计

解码器的空洞空间金字塔池化模块采用特定空洞率设置，输出步长为16，提升小区域预测效果。

模型能力

航拍影像分析

激光雷达数据处理

屋顶材料分类

语义分割

使用案例

建筑与城市规划

屋顶材料识别

用于识别和分类建筑物屋顶材料，支持建筑维护和城市规划。

平均准确率84.99%，整体准确率91.13%

遥感分析

航拍影像分割

对航拍影像进行语义分割，识别不同屋顶材料区域。

mIoU达到74.74%

🚀 RoofSense模型卡片

RoofSense是一个用于多模态屋顶材料分类的编码器 - 解码器语义分割模型，能有效处理相关图像分割任务，为屋顶材料分类提供精准的解决方案。

📚 详细文档

🔍 模型详情

模型描述

该模型采用编码器 - 解码器架构，将ResNet - 18 - D与DeepLabv3 + 相结合。经过超参数优化后，编码器模块增加了抗锯齿和高效通道注意力模块。此外，编码器中的全局平均池化模块被替换为平均池化和最大池化的均值。并且，解码器的空洞空间金字塔池化模块的膨胀率设置为$\left(20, 15, 6\right)$。最后，为解决标注错误并改善小区域的预测效果，解码器的输出步长设置为16。

开发者：Dimitris Mantas，荷兰代尔夫特理工大学
模型类型：全卷积神经网络
许可证：知识共享署名4.0国际许可协议
基础模型：timm/resnet18d.ra2_in1k（迁移学习）

模型来源

仓库：https://github.com/DimitrisMantas/RoofSense
资源：https://repository.tudelft.nl/record/uuid:c463e920 - 61e6 - 40c5 - 89e9 - 25354fadf549

📊 评估

属性	详情
基础模型	timm/resnet18d.ra2_in1k
基础模型关系	合并
数据集	DimitrisMantas/RoofSense
库名称	segmentation - models - pytorch
许可证	cc - by - 4.0
评估指标	准确率、混淆矩阵、F1分数、平均交并比、精确率、召回率
模型索引	名称：RoofSense；结果：在RoofSense数据集上，平均准确率0.8499，总体准确率0.9113，平均精确率0.842，平均交并比0.7474；任务：语义分割
管道标签	图像分割
标签	航空影像、激光雷达、数据融合、屋顶材料、屋顶材料分类、语义分割

🚀 快速开始

使用以下代码开始使用该模型：

{{ get_started_code | default("[More Information Needed]", true)}}

💡 建议

⚠️ 重要提示

用户（直接用户和下游用户）应了解模型的风险、偏差和局限性。如需进一步建议，还需更多信息。

📚 引用

BibTeX：

{{ citation_bibtex | default("[More Information Needed]", true)}}

APA：

{{ citation_apa | default("[More Information Needed]", true)}}

Apache-2.0

Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本，支持多语言图像描述任务。

Nunchaku Flux.1 Dev Colossus

其他

Colossus Project Flux 的 Nunchaku 量化版本，旨在根据文本提示生成高质量图像。该模型在优化推理效率的同时，将性能损失降至最低。

图像生成英语

nunchaku-tech

235

Qwen2.5 VL 7B Abliterated Caption It GGUF

Apache-2.0

这是一个基于Qwen2.5-VL-7B模型的静态量化版本，专注于图像描述生成任务，支持多种语言。

olmOCR-7B-0725-FP8是基于Qwen2.5-VL-7B-Instruct模型，使用olmOCR-mix-0225数据集微调后量化为FP8版本的文档OCR模型。

Lucy-128k是基于Qwen3-1.7B开发的专注于代理式网络搜索和轻量级浏览的模型，在移动设备上也能高效运行。

智启未来，您的人工智能解决方案智库

Roofsense

模型介绍

内容详情

替代品

模型简介

模型特点

模型能力

使用案例

🚀 RoofSense模型卡片

📚 详细文档

🔍 模型详情

模型描述

模型来源

📊 评估

🚀 快速开始

💡 建议

📚 引用

精选推荐AI模型