type
status
date
slug
summary
tags
category
icon
password
题目:Segment Anything Model for Road Network Graph Extraction
会议:CVPR 2024 2nd Workshop on Scene Graphs and Graph Representation Learning
年份:2024
文章提出的SAM-Road是对Segment Anything Model(SAM)的改进,其可用于从卫星图像中提取大规模、矢量化的道路网络图。为了预网图形的几何形状,利用SAM的优势,将其表述为密集语义分割任务。作者对SAM的图像编码器进行了微调,以生成道路和交叉口的概率掩码,并通过简单的非最大值抑制从掩码中提取图形顶点。为了预测图形拓扑结构,作者设计了一种基于Transformer的轻量级图形神经网络,该网络利用SAM图像斌入来估计顶点之间的边缘存在概率。该方法可直接预测大面积区域的图顶点和边,无需昂贵而复杂的后处理启发式方法,并能在数秒内构建跨度达数平方公里的完整路网图。
一、创新点
- 提出SAM-Road模型:发挥了SAM模型的能力,结合了语义分割和图神经网络。模型可以直接预测图的顶点和边,无需复杂的后处理启发式方法。
- 图形几何和拓扑预测:使用密集语义分割来预测图形的几何结构,并使用轻量级的基于Transformer的图神经网络来预测拓扑结构,从而实现准确和快速的预测。
- 效率和速度:在城市数据集上的处理速度比现有最先进的方法快40倍,同时不牺牲准确性,能够在几秒钟内构建跨越数平方公里的完整道路网络图。
二、路网图预测
路网图检测研究具有代表性的方法分为两类:基于分割的方法和基于图的方法。
1.基于分割
基于分割的方法将这项任务视为密集掩码预测。它们通过一幅或多幅图像来表示道路网络图结构,每幅图像都详细描述了道路的存在、交叉点、方向和连通性。然后采用后处理启发式方法,如稀疏化和路径查找,来提取矢量化图结构。
这种方法的优点包括:
1)分割掩模能够以自下而上的容积表示法表示复杂的几何图形;
2)易于对大面积区域进行并行片断推理,随后将结果汇总以进行细化。
然而,拓扑预测的挑战依然存在:
a.手工制作的启发式方法往往会因掩膜质量差而失败;
b.即使是高质量的掩膜,从它们中推导拓扑结构也仍然是不成型的。
c.对于所有复杂的道路结构,如多路交叉口、多车道高速公路和立交桥,目前还没有通用的启发式方法。
d.此外,启发式往往依赖于CPU密集型逻辑,这往往成为推理速度的瓶颈。
2.基于图
基于图形的方法最近越来越受欢迎,因为它提供了一种更加端到端的方法。与使用掩码图像等中间表示方法不同,它们直接以矢量化形式预测图节点和边。
主要的例子包括RoadTracer、RNGDet和RNGDet++。这些方法减少了对手工图形生成规则的依赖,主要利用类似DETR等技术进行几何元素预测,或采用自回归方法进行增量图形构建。尽管这些方法具有优势,但也存在局限性:
1)由于transformer层的计算复杂度为O(N),类似DETR的方法很难处理超过几十个实体,这限制了它们对可能有成千上万节点和边的城市规模道路网络图的适用性;
2)自回归方法很难并行化,因为它们依赖于前几个步骤的结果,大大降低了处理速度。
而论文中提出的的方法结合了基于分割的方法和基于图形的方法的优点。它利用SAM的卓越功能生成用于几何预测的高质量掩码,并使用基于变换器的图神经网络直接生成图结构,而无需手工制作的后处理启发式方法。
三、方法结构
1.总体结构
SAM-Road 模型采用了一种新的方法来提取和构建大规模的矢量化道路网络图。SAM-Road 模型核心结构包括:基于预训练的 Segment Anything Model (SAM) 的图像编码器,几何解码器,以及基于Transformer的拓扑解码器。
2.图像编码器(Image Encoder)
图像编码器基于预训练的 Segment Anything Model(SAM),具体采用了 ViT-B 架构。这一架构适用于高分辨率图像,能够将输入的 RGB 卫星图像转换为特征映射,这些特征映射后续将用于道路和交叉点的几何及拓扑预测。在训练阶段,整个图像编码器会以较低的学习率进行微调。
3.几何解码器(Geometry Decoder)
几何解码器的任务是预测每个像素点的存在概率,即该点是否属于道路或交叉点。这一步骤是通过密集的语义分割来实现的,利用 SAM 的强大语义分割能力,几何解码器能够生成高质量的概率掩膜图。掩膜图中的每个像素值表示该位置存在道路的概率。然后,使用简单的非最大抑制(NMS)方法从这些概率掩膜中提取出图的顶点。
4.拓扑解码器(Topology Decoder)
拓扑解码器采用了基于Transformer的图神经网络架构,其主要功能是基于几何解码器提供的顶点,预测这些顶点之间是否存在连接(即图的边)。对于每个顶点,拓扑解码器考虑其周围一定半径内的邻近顶点,并基于顶点的相对位置和图像上下文预测它们之间的连接概率。这一预测是作为一个二分类问题处理的,每个顶点对的连接概率由一个 sigmoid层输出。
5.标签生成
标签生成:在训练阶段,使用地面真实的道路网络图来生成训练用的掩膜和拓扑标签。这包括将真实的道路网络渲染为掩膜图,并根据网络的连接情况生成拓扑标签。
6.滑动窗口预测
滑动窗口预测:为了处理大区域的图像,SAM-Road 采用了滑动窗口的预测方式。模型在重叠的窗口上独立预测局部图结构,然后将这些局部预测融合成全局图。这种方法允许模型以并行方式快速处理大范围的图像,并在准确性和速度之间做出灵活的权衡。
四、实验
1.数据集
City-scale 数据集
- 数据集包含来自美国20个城市的180张卫星图像,其中29张图像用于测试。每张图像2048×2048像素,分辨率为1m,覆盖较大的城市区域。
- https://arxiv.org/abs/2007.09547
SpaceNet 数据集
- 数据集包含2549张卫星图像,其中382张图像用于测试,这些图像来自全球多个城市,如上海、拉斯维加斯等。每张图像400×400像素,分辨率为1m。
- https://arxiv.org/abs/1807.01232
2.评价指标
- TOPO
TOPO 是一种专为道路网络图设计的评估指标。它通过在地面真实图中随机抽样候选顶点,然后在预测图中找到对应的顶点,比较从同一顶点出发在两个图中可达的子图的相似性。这种比较关注于几何精度,并对不正确的断开(即断开本应连接的顶点)给予重罚。TOPO 主要评估的是局部图结构的相似度,通过精度(Precision)、召回率(Recall)和 F1 分数来评估。
- APLS (Average Path Length Similarity)
APLS 是另一个评估道路网络图拓扑正确性的指标。它计算地面真实图中随机顶点对之间的最短路径长度与预测图中对应顶点对之间的最短路径长度的相似度。如果两个图中顶点对之间的路径长度接近,则表明拓扑正确性高。APLS 主要衡量的是图的长程拓扑和几何结构的相似性,较小的路径长度差异表示高的拓扑相似度。
3.与现有方法的对比
精度对比
速度对比
对比示意图
4.滑动窗口参数设置对精度和速度的影响
5.消融实验
消融实验讨论了预训练SAM的使用、Transformer的使用、顶点偏移、预测交叉点等部分的影响。
6.一些提取错误
- Author:Zhangsan
- URL:https://www.zhangsanpyq.top/article/SAM-Road
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!