融合显著性与深度学习的遥感影像建筑物提取

摘要

显著性检测算法主要是基于视觉注意机制原理来快速获取图像中显著区域的方法,像显著区域的自动提取主要用的是自底向上的视觉注意模型,基于数据驱动的注意模型,不依靠人的先验知识和期望,通过提取图像的颜色、 方向、亮度、纹理等基本特征来获取图像的显著图。本文分析了三种算法模型: 基于生物特性的 Itti 模型、基于全局对比度的FT模型和基于信息论与频域的SR模型。

  • 改进Unet
  • 将显著性算法提取的显著图作为改进U-net网络的训练集进行训练

绪论

感兴趣区(Regions of Interest,以下简称 ROI)是在一张图像中用户最需要的部分, 最能表达图像信息的区域,如果可以对这个区域进行提取将会大大提高图像处理速度。目前,ROI 的提取算法很多,基于视觉注意机制的提取方法逐渐发展成为主流,其具有精度高、速度快等特点。

目前对视觉显著 性检测算法大致可以分为以下几类:

  • 基于生物启发模型的算法模型
  • 基于纯数学计算的算法模型

file

建筑物视觉显著性检测

影像视觉注意机制

  • 自顶上下:型受到主观因素和先验知识 的影响,使得研究的结果呈现较大的差异性
  • 自底向上:完全 基于底层数据,具有更加深刻研究意义与应用前景

注意力的抑制机制:返回抑制机制(inhibition of return,简称 IOR),即对已经注意过的物体再次注意时出现的滞后现象。

图像显著性特征

  • 颜色特征
    • RGB颜色空间

    file

    • HSV颜色空间,H:色调(0-360),S:饱和度(0-1),V:明亮度(0-1)

    file

    • Lab颜色空间,L:亮度(0-100),a:红到绿(-128->127),b:黄到蓝(-128->127)理论上可以表示所有颜色。
    • 通常图片都是RGB,转换为Lab需要借助XYZ空间,比较麻烦
      file
  • 亮度特征
    • $I = \frac{R+G+B}{3}$
  • 方向特征
    • 也是一种视觉体现方式,,Gabor滤波器可以提取任意方向的特征信息,它的频率与方向与人类的视觉系统具有很高的相似性
    • $G_{\lambda,\theta,\psi,\sigma,\gamma}(x,y) = e^{-\frac{x'^2+\gamma^2y'^2}{2\sigma^2}}cos(2\pi\frac{x'}{\lambda}+\psi) \\ \begin{cases} x'=xcos \theta+ysin \theta \\ y'=-xsin \theta+ycos \theta \end{cases} \\ \lambda 表示余弦函数波长,\theta 为平行条带方向[0,360],\psi 表示相位[-180,180], \\ \sigma 表示标准差,决定滤波核接收区域大小,\gamma 表示纵横比,决定滤波核的椭圆度。$

经典的显著性算法

  • Itti生物特性视觉注意模型
    • 不具有高级信号处理方式,速度快
    • 可以根据选取特征的重要性来赋予不同的权值,可以更好的提取重要特征
    • 模拟了中心-外周拮抗结构,对不同特征尺度之间做差

    特征提取:将输入图像拆分为9层的高斯金字塔影像,第0为初始图像,第1-8层,使用高斯滤波器降采样,每层变为上层的1/2,最后对每一层特征提取亮度,颜色,方向特征

    生成显著图:

    • 对于每一张特征图,给出固定区间[0,M],将所有显著值归一化到此区间
    • 计算全局最大值M,以及其他所有局部最大值的平均值m
    • 将整幅图像的显著值扩大(M-m)的平方倍
  • FT频率域视觉注意模型
    • 一幅图在频率域中分为高频,低频,低频包含轮廓信息,高频包含噪声,纹理等
    • 对图像中的低频到高频进行多次带通滤波,将所有输出归一化合并的到显著图

    FT 算法从频率域角度出发,通过抑制高频信息,来去除噪声,提取图像的轮廓,使得图像的整体亮度得到提高,不能有效区分显著和背景,经过二值化后包含较多信息,提取效果不明显。

  • SR信息论与频率视觉注意模型
    • 认为:图像 = 不随环境变换的冗余信息+显著变换区域
    • SR 算法是一种基于信息论与频率域的提取方法,它不能识别图像中的颜色信息,主要反映的是显著部分与背景区域的显著差别。从上图可以看出,蓝色的建筑物以为其结果相似并无突变,更符合背景信息的条件,所以SR算法提取的效果中,建筑物更接近于背景,在图中显示为全黑,经过反色二值化后,具有较高的提取精度。
  • 显著性评价指标
    • 平均绝对误差法

      $MAE = \frac{1}{W*H}\mathop{\sum}\limits_{x=1}^{W}\mathop{\sum}\limits_{y=1}^{H}||S(x,y)-G(x,y)|| \\ W,H 表示宽高,S表示显著图,G表示真值$

    • PR曲线与F度量值
    GT\SM 背景区域 显著区域
    背景区域 TN FP
    显著区域 FN TP
    • 准确率,召回率

      $\begin{cases} P=\frac{TP}{TP+FP} \\ R= \frac{TP}{TP+FN} \end{cases}$

    • $F_\beta = \frac{(1+\beta^2)P*R}{\beta^2P+R}$
    • ROC曲线:FP 作为坐标系的横轴,TP 作为坐标系纵轴,在不同条件下获取的不同结果在坐标系中呈现为离散点,再将离散点连接而成的曲线,曲线与横坐标轴组成的区域面积越大,代表精度越高。

影像建筑物特征的深度学习

上采样:主要作用是放大图片

  • 插值法:最邻近插 值法,双线性插值法,三次插值法

    使用双线性插值法较多,简单,不用参数

    $$f(x,y) \approx \frac{f(Q_{11})}{(x_2-x_1)(y_2-y_1)}(x_2-x)(y_2-y)+\frac{f(Q_{21})}{(x_2-x_1)(y_2-y_1)}(x-x_1)(y_2-y)+\\ \frac{f(Q_{12})}{(x_2-x_1)(y_2-y_1)}(x_2-x)(y-y_1)+\frac{f(Q_{22})}{(x_2-x_1)(y_2-y_1)}(x-x_1)(y-y_1)$$

  • file

  • 反卷积
  • 反池化

跳跃连接

  • 对应位置相加
  • concatenate,特征在Z轴相加

    file

改进的U-net网络与建筑物影像提取

  • 损失函数选择:交叉熵

$H_{y'}(y) = - \mathop{\sum}\limits_{i}y_i'log(y_i) \\y是预测概率分布,y'是实际输出的概率分布$

softmax_cross_entorpy 是多分类交叉熵,本文使用binary_cross_entropy,是一种特殊情况

  • 数据集
    • 采用网络公开的数据集 CCF,
    • 数据来自于 2015 年中国南方某地区的高分辨 率无人机遥感影像,
    • 分辨率为亚米级,光谱为可见光波段(R,G,B),
    • 其影像 大小为 7939*7969
    • 切割:256*256 15000张
  • 试验参数
    • Adam优化器
    • learning_rate:le-4
    • batch_size:16
    • epochs:50

论文主要思想

主将显著图放入改进的Unet,作为输入

原文下载

下载

Dean0731

海纳百川,有容乃大,壁立千仞,无欲则刚

相关推荐

发表评论