摘要——由于高光谱传感器的低空间分辨率、双散射以及场景中材料的紧密混合,光谱像素通常是材料的纯光谱的混合物,称为端元。分解估计像素内端元的丰度分数。根据端元的先验知识,线性解混合可以分为三个主要组:监督、半监督和无监督(盲)线性解混合。图像处理和机器学习的进步极大地影响了分解。本文概述了先进和传统的分解方法。此外,我们对这三个类别的先进技术和传统技术进行了批判性比较。我们比较了三个模拟数据集和一个真实数据集上的分解技术的性能。实验结果揭示了不同解混合类别对于不同解混合场景的优势。此外,我们在https://github.com/BehnoodRasti/HySUPP 上提供了一个基于Python 的开源包来重现结果。
简介
光谱分解是一项重要的处理技术高光谱遥感可以在矿产勘探、农业和农作物监测、环境监测、城市规划、行星表面遥感、污染监测、医学成像、水质评估等各个领域发挥重要作用。通过高光谱传感器捕获的连续光谱,可以识别图像中的不同材料。通过使用端元(材料的独特光谱特征),解混合算法可以将混合光谱数据分解为其组成部分。然而,由于空间分辨率低、多重散射和紧密混合,像素内测量的光谱通常是组成材料的纯光谱的复杂混合物,使得分解成为一项具有挑战性的任务。图 1 演示了光学高光谱相机捕获的混合像素的反射率是如何由该像素内的两个端元组成的。在高光谱遥感中,混合模型将观测到的光谱像素表示为端元及其在像素区域内相应的分数丰度的函数。分离是通过估计或提取端元或依靠端元库来估计丰度分数的过程。它还可能涉及确定存在的端元数量。混合模型可以是线性的,也可以是非线性的,具体取决于入射光与场景或样本中的材质的相互作用。在线性分解中,假设端元是线性混合的,当每条光线在到达传感器之前仅与一种材料相互作用时,这是有效的,如图 2 (a) 所示。这种假设在存在宏观问题的地球观测应用中很常见。传感器的空间分辨率在宏观场景中起着至关重要的作用,其中一个像素可能包含多种材料。在这种情况下,像素是不同材质的混合物,例如树木和土壤,如图 2 (a) 所示。另一个假设是双线性混合,它假设双散射或光线在到达传感器之前与两种材料相互作用,如图 2 (b) 所示。然而,在纯材料在像素内紧密混合的微观场景中,光经过多种材料的多次散射和反射,线性近似失败,应使用比双线性更复杂的非线性模型[1],[ 2]。在宏观场景中,噪声、大气效应、时间效应、光照变化和材料固有变化也会引起非线性,这可能会导致图 3 所示的光谱变化[3]。照明变化主要归因于两种影响:地形变化,影响入射辐射的角度,以及光源被其他物体遮挡(导致阴影区域)。材料光谱特征的内在变化主要是由于物理化学变化。例如,土壤的特征可能会因其成分和水分含量的变化而发生巨大变化。另一个例子是叶子在整个季节中的标志性变化。尺度差异也会导致光谱变化。例如,一棵树包含叶子、树枝、果实、树皮、树皮、果实或花朵等,导致不同尺度下树木光谱的内在变异性。应校正大气效应,并消除噪声[4]~[6]。分离过程是主观的,取决于如何端元已定义。例如,在检测建筑物时,砖块的反射率可以被视为端元。然而,砖块由多种材料组成,例如粘土、沙子和混凝土,这使得定义感兴趣的端元以检测砖块内的特定材料或不同材料的比例变得具有挑战性。
在前者中,线性分解可能足以解决问题。然而,对于紧密混合物和后者,必须使用非线性模型。例如,Hapke 模型 [7]、[8] 表明混合发生在反照率级别而不是反射率级别。因此,在这种情况下需要更复杂的非线性模型来准确地分解光谱数据。值得一提的是,与常见的假设不同,像素内或场景中端元的比例并不是该像素内或该场景中端元材料的百分比[1]。根据 Hapke [7]、[8],线性混合物中端元的比例表示该端元的相对面积。因此,反射率不是端件材料的质量或横截面积的线性混合。尽管如此,线性解混在过去几十年中在遥感应用中显示出了重要的价值[1]。然而,当将分离问题与应用程序关联时,我们应该意识到我们使用的模型的简化。假设场景中的三种材质对应于三个端元(e1、e2和e3),则观察到的数据可以投影到二维子空间中,其中所有数据点都包含在由端元凸包形成的数据单纯形中(见图11)。相反,在非线性场景中,单纯形并不包含所有数据点。本文主要考虑线性EO应用和宏观问题,重点关注线性混合模型。然而,我们简要讨论双线性和非线性解混方法。
图 1. 高光谱数据中混合像素和纯像素的比较。
现有概述论文和分解包
[9] 中给出了有关高光谱分解的早期调查,其中讨论了基本的几何和统计方法。在[1]中,基于线性模型的分解技术被分为三类:几何、统计和基于稀疏回归的方法。Matlab 工具箱可从 https:///获取。然而,该工具箱并不完整,并且缺少一些方法,例如依赖成分分析(DECA)。近年来,深度学习和神经网络已成为机器学习和图像处理领域许多任务的最先进技术。因此,提出了许多基于浅层和深层神经网络的分解方法。[10] 对基于自动编码器的网络进行了比较。作者讨论了基于自动编码器的架构,分为五类,即稀疏非负自动编码器、变分自动编码器、对抗性自动编码器、去噪自动编码器和卷积自动编码器。他们进一步讨论了不同模块的选择,例如不同的激活函数或损失函数,并将浅层网络与深层网络进行了比较。他们还提供了基于 TensorFlow 的Python 包,可在 GitHub 上获取。然而,该包仅限于基于自动编码器的盲解混合方法。它不讨论或比较监督、半监督和更传统的盲解混合方法。在[11]中,解释了一些基于模型和基于神经网络的解混合方法,但没有进行实验比较。给出了这些方法的资源列表。[12] 中给出了光谱混合分析 (SMA) 中端元变异性的调查。在[13]中,概述了解决端元变异性的分离方法。分解方法的全面概述最近在[3]中提供了解决光谱变异性的方法,并且还给出了 Matlab 代码列表。在[14]中,概述了端元提取方法。高光谱遥感数据分析的综述论文简要讨论了分解方法[15],[16]。在[17]中,给出了非线性解混方法的综述。还有其他开源工具,例如 HyperMix [18]、SpectralPython (SPy) 、Spectral Library Tool、PySptools,包括用于估计端元数量、端元提取、丰度估计的基本算法以及一些库工具和基于库的方法。因此,需要一个全面的包,涵盖不同分解类别的方法,并包含最先进的图像处理和机器学习技术。
本文的目的如下:为研究人员提供有关线性分离技术的所有基本主题的全面而技术性的概述。考虑有关端元的先验知识,对分解方法进行分类。线性分解可以分为三个主要类别:监督分解、半监督分解(基于库)和无监督分解(盲)。根据端元先验知识比较各种分离方法,并得出结论,帮助研究人员选择合适的分离方法来应对现实世界的挑战。我们针对三个模拟数据集和两个真实世界数据集比较了这些类别中的传统和基于深度学习的分解方法。对于模拟数据集,我们考虑三种场景:简单的纯像素数据集、具有光谱变化的数据集以及没有纯像素的具有挑战性的数据集。这种比较可以让研究人员深入了解他们的应用程序应使用哪个类别。此外,比较揭示了这些类别的缺点,这促使开发人员研究新的想法来解决这些缺点。
我们提供开源的 HyperSpectral Unmixing PythonPackage (HySUPP)。HySUPP 是第一个基于 Python 的开源高光谱分解包,包括监督、半监督和盲分解方法。该软件包将使地球科学和遥感界受益,包括研究人员、开发人员、讲师和学生。由于 HySUPP 依赖于一些依赖项,因此软件包安装非常简单。此外,所有方法都可以使用单个命令行指令运行。
图 2. 宏观假设与微观假设。该图说明了高光谱图像中的三个主要假设。(a) 线性假设是光与材料仅相互作用一次。(b) 当光与最多两种材料相互作用时的双线性假设 (c) 当光与两种以上材料相互作用时的紧密混合。
图 3. 噪声、大气影响、照明变化(由地形地形、光遮挡引起)和材料的固有变化(例如,土壤特征可能会因其成分和水分含量的变化而发生巨大变化)导致光谱变化。
图 4. 使用’高光谱分解’作为输入的 IEEE Xplore 关键字搜索工具随时间变化的出版物。
线性解混
为了频繁进行地球观测,卫星上安装了高光谱传感器。光线在到达目标之前先穿过大气层,然后再穿过大气层到达传感器。大气吸收和散射光,因此,除了将辐射率转换为反射率之外,还应应用大气校正。可以说,对于机载、无人机和近距离成像来说,大气校正是不必要的。图 6 (a) 简化了使用卫星高光谱传感器进行传感的概念。可以看出,传感器捕获的像素包含三种材质,即水、树木和土壤。在传感器处,辐照度被校正为图 6 (b)中的反射率。请注意,该反射率介于零和一之间。图6(c)显示了线性分解的概念,它表明测量的像素包含20%的水(蓝色端元),50%的土壤(黄色端元)和30%的树木(绿色端元)。可以说,这些部分不能为负,称为丰度非负约束 (ANC),并且这些部分的总和为100%,称为丰度和一约束 (ASC)。此外,端元是反射率且不能为负(实际上,端元必须限制在 0 和 1 之间),这导致了端元非负性约束。在这里,我们讨论两种广泛使用的线性混合模型,即低秩线性混合模型(所谓的LMM)和稀疏冗余线性模型。前者主要用于监督和盲解混,后者用于稀疏解混。其他一些线性模型也被用于文献,这将在整篇论文中进行讨论。我们还讨论了基本神经网络模型的组成部分。考虑到终端成员的先验知识,分离技术可以分为三个主要组。监督和无监督(盲)分解使用相同的低秩混合模型,而半监督分解使用稀疏和冗余线性模型。终端成员库过于完整;因此,丰度希望是稀疏的。盲解同时估计端员和丰度。值得一提的是,无监督(盲)混合可以应用于传感器辐照度,但是,数据无法解释,并且提取/估计的端元无法与相应的材料相关联。如果纯像素也是辐照度,则可以对辐照度应用监督分解。半监督分解不能应用于传感器辐射率,因为它们依赖于光谱库。
图 6. 传感和线性分解示意图。(a) 感测混合像素 (b) 混合像素的反射率以及 (c) 线性解混合示意图。
图 7. 不同类型线性解混的图形表示。有监督和盲解混合使用相同的低秩混合模型,而稀疏解混合使用稀疏和冗余线性模型。盲解同时估计端员和丰度。
A. 低秩线性混合模型
高光谱传感器捕获的每个 p 维像素 y(即传感器具有p 个波段)可以表示为像素内端元的线性组合。让我们假设矩阵 E(p × r),每个像素内包含 r 个端元。则 y 表示为
其中 n 表示 p 维随机向量,表示加性随机高斯噪声。使用矩阵符号,我们可以将所有像素 Y 表示为
其中 Y(p*n)是观察到的 HSI,具有 n 个像素和 p 个波段,N(p*n)是噪声,A(r*n)分别包含 r 个端元及其分数丰度。模型 2 称为线性混合模型 (LMM)。
相当于每个像素都有P个波段,这P个波段由r个端元组成,每个端元的丰度分数是p维度的,即每个波段的比例。
B. 低阶 LMM 和单纯形体积
假设端元是仿射独立的,即 e 2 – e 1 , …, er – e1 是线性独立的,则
是 (r ≤ 1)-单纯形。事实上,这是顶点的凸包,即 e i– 假设没有噪声。因此,如果我们忽略噪声,数据集的任何点都属于S(见图11(a))。我们应该注意到 A 的列属于 (r ≤ 1)- 概率单纯形
因此,a i → → r 表示 ASC 和 ANC。事实上,−r 的顶点是R r 中的 r 个单位向量。此后,我们将 (3) 称为数据单纯形,将 (4) 称为丰度单纯形。值得一提的是,与数据单纯形不同,丰度单纯形对于非线性模型也有效。让我们假设 S r 是 R r 中的 r-单纯形,即 e i → Rr,其中 i = 0, 1, 2, .., r。那么这个单纯形的体积由下式给出(5) 其中 det 是矩阵的行列式。在线性混合模型 (LMM) 中,我们在 R r 中有一个 (r ≤ 1)-单纯形(投影到 r 维子空间后,参见 IV-A),即 e i ≤ R r for i = 1, 2, .., r (E r → R r →r )。R r 中 (r → 1)- 单纯形的体积为零。因此,包含原点(即 E 0 = [0, E])的扩展单纯形可用于计算体积。因此,或者,数据点可以移动到原点,并且 (r – 1)-单纯形的体积可以在 R r – 1 中计算,给出如下:值得一提的是,需要投影到子空间(IV-A)才能形成方阵并计算行列式。
C. 稀疏冗余线性混合模型
观察到的光谱可以使用稀疏和冗余的线性混合模型来表示:
其中 D → R pàm (p → m) 表示包含 m 个端元的谱库,X → R màn 是要估计的未知分数丰度。请注意,D是一个过度完备的字典,因此应该是一个设计良好的字典。精心设计的字典包含场景中材质的端元,可以稀疏化冗余的X。因此,可以根据光谱的光谱角度对光谱库进行修剪(即,度数差异较小的光谱将被删除)。然而,如果它们是彼此的缩放版本,则存在丢失材料端元的风险。在设计良好的字典的情况下,像素是字典中几个原子的混合,因此 X 是一个稀疏矩阵。请注意,如果观察到的光谱中不存在端元材料,我们将得到零行。其余行将包含零,因为丰度通常很稀疏。该模型常用于稀疏解混。使用稀疏回归公式中的稀疏性执行惩罚/约束来估计分数丰度 X。
D. 浅层/深层神经网络模型
浅层或深层神经网络可用于监督、半监督或盲解混合。该网络通常基于基于自动编码器的架构,如图 8 所示。编码器 E 可以是深的或浅的,将光谱像素编码为由下式给出的丰度:
解码器 D 重建由下式给出的像素
图 8. 用于解混的基本编码器-解码架构。(浅层或深层)编码器将像素编码为丰富。ASC 和 ANC 可以在瓶颈上强制执行。浅层解码器重建像素,解码器的权重是端元。
即该方法采用自编码神经网络,将高光谱多波段影像数据输入到编码器,编码器输出丰度向量,丰度向量可转换为与高光谱影像分辨率相同的丰度图像(每个像素属于每个波段的比例-通过softmax实现),丰度向量经过解码器得到高光谱多波段影像数据。
E. 噪声对分解的影响
高光谱数据通常会因不同来源而降级,包括大气影响、成像伪影和仪器噪声。这些来源可以进一步影响高光谱分析,包括分解[5]。解混合是一个逆问题,可能对噪声非常敏感,主要是当端元高度相关时。因此,分离技术可能会因噪声而失败。在[1]中,建议使用所谓的信噪比频谱分布(SNR-SD)来确定解混逆问题是否给出可接受的结果。然而,高光谱去噪领域在过去十年中已经取得了长足的发展[4]、[5]、[39],并且降噪作为预处理步骤可以提高解混合性能[40]。我们应该注意到,解混合技术通常考虑高斯噪声,甚至可以作为降噪器执行,但不如降噪技术有效[40]。此外,还有其他类型的噪声,例如条带和稀疏,可以通过在取消混合之前应用去噪来去除[39]。或者,提出了一些在统一框架中执行去噪和分解的方法,以提高彼此的性能[41]、[42]。因此,我们建议在使用 SNR-SD 估计丰度或表征解混逆问题之前应用成熟的降噪技术。
F.根据端元先验的方法分类
分离技术可以根据端元的先验知识进行分类。根据有关端元的先验知识,分解问题可以分为三个主要类别:(1)监督分解,(2)无监督(盲)分解,以及(3)半监督分解。在监督分离中,丰度是通过已知的端元来估计的,而盲分离则同时估计端元和丰度。半监督分解依赖于最终成员库,理想情况下该库包含场景中的最终成员。我们分别讨论每个类别。
监督解混
在监督分解中,我们假设端元已知,并且需要估计丰度矩阵。实际上,端元可以在现场或实验室进行测量。人们可以从光谱库中选择它们,但是,由于成像设置的变化,这种选择不会导致理想的丰度估计。或者,可以从数据点提取/估计它们。此步骤经常使用几何方法。端元提取通常并不容易,因为捕获的数据可能不包含代表场景中所有端元的纯像素。最多端元提取方法依赖于纯像素或单纯形面上的一些像素。在非纯像素场景中,几何方法效果较差。监督分解的处理链如图 10 所示。请注意,我们将基于这种顺序过程(而不是同时估计端元和丰度)的方法分类为监督分解,因为在丰度估计步骤中,端元被假设为已知。处理链通常包括三个主要步骤:
1) 子空间投影:将数据投影到子空间中
2) 端元提取/估计:通常使用几何方法来提取端元
3) 丰度估计:可以使用最小二乘法 (LS) 估计丰度或基于神经网络 (NN) 的方法。
A. 子空间投影和最终成员数量估计
高光谱数据通常存在于维度远低于传感器定义的光谱带维度的子空间中。假设场景中有 r 个端元,内在/子空间维度为 r≤1,即数据点可以由 r≤1 个线性独立向量或基表示(在正交投影的情况下)。因此,识别这样的子空间并将数据投影到其中可以减少计算成本、内存消耗,并消除噪声和异常值。子空间投影由下式给出
其中 V (p × r)列跨越子空间,F 列是投影光谱像素。当 V 为半正交时,该投影是正交的,这是 HS 子空间投影中的常见选择。在(22)中,V和F都应该被估计[43]、[44]。或者,我们可以假设
其中减少方法,例如最小噪声分数 (MNF)、主成分分析 (PCA) 和噪声调整主成分 (NAPC) 估计 V[45]。并不是说 Y 通常不是方阵;因此,奇异值分解(SVD)可用于估计 V [46]、[47]。有关高光谱特征缩减的更多详细信息,请参阅[16]、[45]。估计最终成员的数量并不是一项简单的任务。分离方法很容易受到此参数的影响,低估或高估 r 可能会极大地影响模型的误差。我们应该注意到,不使用端元束的基于稀疏回归的方法不依赖于 r 的估计。在文献中,这个问题用其他名称来解决,例如高光谱子空间识别、固有顺序选择、虚拟维度和光谱不同信号源数量的估计[46]-[48]。这个问题可以使用基于特征值的检测技术[48]-[50]或估计均方误差[46]、[47]来解决。基于几何的方法也被提出用于端元估计[51]-[53]。
图 10. 监督分解的处理链。首先,将数据投影到子空间中。然后,使用几何方法提取端元。如果端元可用,则可以跳过端元提取。在最后一步中,可以使用基于 ML/DL 的方法来估计丰度。
B. 线性分解的端元提取
如图 11(a)所示,端元是包围数据点的单纯形的顶点。因此,几何概念启发了端元提取技术的主流。几何方法可分为两大类:纯基于像素的方法和没有纯像素假设的方法。图 11 比较了纯像素和无纯像素假设。在图11(b)中,红色圆圈表示丢失的纯像素的位置。在这种情况下,无法提取端元,应对其进行估计。如果有足够的像素位于单纯形的面上,则使用几何方法这是可行的。当涉及噪声和其他非线性时,这对于高维情况变得更具挑战性。或者,可以基于由光谱变异性引起的端元变异性的假设来提取一组端元(端元束),如图11(c)所示。图 11(d)显示了几何方法无法应对的高度混合的场景。
1)纯像素假设:为了简单起见,许多技术都考虑纯像素假设,而在实际应用中,某些端元的纯像素经常丢失。依靠纯像素进行端元提取的方法可分为三大类:投影和极值、单纯形拟合方法和多端元提取方法(端元束)。
图 11.纯像素与无纯像素假设。(a) 纯像素场景 (b) 单纯形面上没有足够像素的纯像素场景 (c) 端元束,以及 (d) 单纯形面上没有像素的无纯像素场景(高度混合场景)。
投影和极值:该小组经常通过迭代投影数据点来搜索极值。在将数据迭代投影到特定方向后,可以选择顶点作为极值点。例如,像素纯度指数(PPI)[54]通过将光谱向量投影到一大组随机向量(称为串)上并计算每个向量作为极值点的次数来对光谱向量进行评分。正交子空间投影(OSP)[55]和顶点分量分析(VCA)[25]通过将数据投影到与已选择的端元所跨越的子空间正交的方向来迭代地选择端元。
单纯形拟合:假设端元位于包围数据点的单纯形的顶点处。因此,可以通过最大化数据单纯形来提取它们。N-FINDR [56] 通过逐渐膨胀数据内的单纯形来搜索形成最大单纯形的纯像素。单纯形体积最大化(SiVM)[22]通过使用迭代最大化单纯形体积来提取端元。
多个纯像素和端元束:多个端元也称为端元束。端元束和束分解在[57]-[59]中提出。PCA 用于使用极值来识别(预计的)端元。材料选择了不止一种极端。使用线性编程形成束分解,以确定端元变异性引起的分数丰度的最小值、平均值和最大值。在[60]中,端元束是从观察到的数据中提取的。端元变异性是使用端元束建模的,这将在半监督分解中更详细地讨论。一些技术结合了空间信息来提取端元[61]-[64]。这些方法通常在端元提取中利用来自相邻像素的信息。例如,在[65]中,像素及其邻居的相似性用于对像素进行加权,从而调整单纯形,使其顶点更好地表示自然图像中的均匀区域。这些方法的主要假设是纯像素的相邻像素也是纯的或具有一定的纯度水平,可以提高端元萃取。
2)无纯像素假设:如果没有纯像素,并且数据单纯形的面上有足够的数据点,则虚拟端元可以成功定位在顶点处。这里,主要思想是最小化受包含数据点的端元凸组合影响的单纯形体积。例如,最小体积包围单纯形(MVES)[66]、[67]寻找包围数据点的最小单纯形。最大体积内接椭球 (MVIE) [68] 寻找数据点凸包内包含的最大体积椭球。当接触数据单纯形的面时,该体积最大。接触点有助于估计虚拟端元。或者,最小体积单纯形分析(MVSA)[69]和通过变量分裂和增强拉格朗日(SISAL)[23],[69]进行单纯形识别形成一个非凸最小化(或非凹最大化)问题,该问题估计通过最小化体积数据单纯形来调整端元,遵守 ASC 和 ANC [23]、[69]。假设 Q = E ≤ 1 r ,SISAL 求解 Q = arg min其中铰链函数 (hinge(x) = max{−x, 0}) 是允许违反非负约束并使 SISAL 对噪声具有鲁棒性的正则化。SISAL和 MVSA 解决了同样的问题,然而,SISAL 更有效,因为它使用乘法器交替方向方法(ADMM)[70]。
C. 丰度估算
1) 基于最小二乘的方法:在监督分解中,当端元 E已知时,应该估计丰度。此步骤也称为反演,指的是已知端元时估计丰度的反演问题。噪声的存在、端元估计/提取中不可避免的错误以及物理约束使得这种反演问题非常具有挑战性。提出了通过正交子空间投影的无约束最小二乘解混合(UCLSU)来进行丰度估计[71]。提出非负约束最小二乘解混合(NCLSU)[72]、[73]来估计 ANC 的丰度。[74]中建议使用加权最小二乘法来估计多光谱遥感数据的丰度。有几种尝试来解决受 ANC 和 ASC 影响的最小二乘问题 [74]、[75]。在[74]中,建议对约束最小二乘进行二次规划。第一个有效的算法在[21]中提出,称为完全约束最小二乘解混合(FCLSU)。后来,提出了通过单纯形投影进行完全约束最小二乘解混合[76],以导出更有效的算法。递归算法通过在保持 ASC 和 ANC 的同时执行正交投影来最小化最小二乘法。然而,我们应该注意到,随着图形处理单元(GPU)的进步,可以使用凸优化技术有效地解决 FCLSU。因此,FCLSU 是最广泛使用的丰度估算方法。
2)基于DL/ML的方法。
非监督解混
在监督分解中,处理链是连续的。通常,由于处理链中的顺序,丰度的估计不会影响端元的估计。在无监督分离中,我们假设端元和丰度都是未知的,并且同时估计盲分离端元和丰度。我们考虑三个主要范式;1) 基于最小二乘的方法 2) 基于浅层/深度学习的方法,以及 3) 基于统计的方法。由于盲解混方法固有的非凸性,它们通常容易受到初始化的影响,因此它们总是使用几何端元提取方法进行初始化。
半监督解混
当数据单纯形的面上既没有纯像素也没有足够的光谱可用时,就无法成功提取/估计端元,这会导致丰度估计较差。或者,可以使用盲解混合技术。然而,盲解混是一个非凸问题;因此,使用端元提取技术对端元进行良好的初始化通常有助于找到更好的解决方案。此外,在高度混合的场景中,由于有大量适合数据的解决方案,盲目分解方法通常会失败。图 11 (d) 表明,在高度混合的场景中,找到真正的单纯形并非易事。因此,建议依靠端元库进行半监督分离。在这里,我们应该注意,我们将所有完全或部分依赖谱库的技术归类为半监督分解技术。因此,在讨论半监督技术之前,我们先讨论文库的选择和构建。文库选择或构建是半监督分离方法成功的关键步骤。在没有额外注意和某些处理步骤的情况下盲目选择文库将导致半监督分离的结果不佳。半监督分解有两种主要范式:i) 多端元光谱和混合分析;ii) 稀疏分解。前者旨在使用端元变异性来解决光谱变异性。因此,谱库被设计为代表端元的可变性。后者依靠库寻求稀疏解,因此库端元的高相关性避免了稀疏解。在这两种范式中,图书馆必须在某种意义上很好地代表材料,即它必须包含场景中材质的所有端元。通常,可以通过以下方式获取库[3]、[137]。
1) 原位现场或/和实验室测量:endmem-可以使用现场或/和实验室构建 ber 库测量[138]。创建这样的库有几个主要缺点。这是困难、耗时、昂贵的,并且可能依赖于传感器。由于不同测量条件、系统或仪器,有之间经常不匹配和缩放差异来自文库的终端成员和观察到的数据[139],[140]。可用光谱库的列表是在 https:/// 上给出。
2)利用观测数据构建:提取多个来自观察到的数据集的纯像素代表观察到的数据集中的每种材料。这些光谱可以进一步聚类以代表端元捆绑。这些库依赖于数据并且通常在高度混合的场景中失败,因为没有足够的数据集中的纯像素[60]、[141]、[142]。
3) 使用物理模型构建:辐射传输模型可用于生成端元库[143]。辐射传输模型被定义为一个函数理化参数的灰化。因此,不同端元的实例可以通过改变来获得理化参数。例如,前景植被模型 [144] 和 Hapke 模型 [8]紧密混合物和密集混合物的反射率建模可以使用包装的谷物或颗粒。这些库独立于传感器和数据。然而,他们依赖目标模型的可用性和准确性材料。另外,选取有代表性的样本如此复杂的模型是一个巨大的挑战。也可以使用上述库的组合。或者,可以使用生成机器学习模型来增强库。在[145]中,变分自动编码器用于库扩充。
A. 多端元光谱和混合物分析
正如我们所讨论的,端元变异性是高光谱分解中的一个挑战。解决方案是使用包含材料端元变体的库。然后,分解问题可以表示为依赖于这样一个字典的半监督问题。最早的方法在[138]中提出,称为多端元光谱和混合分析(MESMA)。MESMA 的提出是为了解决端元变异性问题。假设结构化库 D = [D 1 , D 2 , …, D r ] 包含所有材料的端元束,MESMA 允许每个像素使用不同的和缩放的端元来解决问题。这是一个组合问题,MESMA 搜索端元的所有组合(来自每个端元束)并选择重构最低的组合错误。候选端元有时被称为模型。这对于所有像素都已解决。MESMA 是一种计算要求很高的算法,没有任何停止标准,必须为每个像素计算 FCLSU 时间。然而,这可以对所有像素并行执行,其计算成本较高,因此,已经提出了几种算法来减少计算负担。因此,我们使用了带有误差阈值 (RE) 的约束最小二乘解混 (SCLSU) 之和,而不是 FCLSU。请注意,忽略非负性约束会导致 SCLSU,它具有封闭形式的解决方案并且可以有效地实现。然后,选择正且小于 1 的解[138]、[146]。此外,可以改变迭代次数和阈值来减少计算量,但它会严重影响性能[147]。在[148]中,无约束最小二乘法(UCLS)被用来加速组合问题解的搜索。或者,可以减小库的大小 [149] – [151]。在[152]中,像素与固定点(选定的端元)和候选端元的超平面投影之间的角度用于查找最佳端元。最小角度相当于最小误差,因此,SCLSU 问题(注意投影到仿射集或超平面仅满足 ASC)被转移到更有效的角度计算。FCLSU用于使用选定的端元(最佳模型)估计丰度,并选择具有最小重建误差的结果。另一方面,在[145]中,建议使用变分自动编码器的深度生成模型来增强库末端成员以解决库不匹配的问题。首先,使用 VAE 来扩充文库,然后使用 MESMA 进行解混合。然而,这使得该算法的计算成本非常昂贵。[153]中提出了一种类似但更有效的方法,该方法仅使用一个解混合步骤。
B.稀疏解混
第一个有效的想法是基于稀疏和冗余建模[30]以及稀疏回归,因此,它通常被称为稀疏解混合。值得注意的是,半监督分解是指所有依赖于库的分解方法,并不限于稀疏分解方法。在稀疏分解中,使用稀疏回归技术估计分数丰度。这些方法将每个光谱描述为丰富的纯光谱库中元素的稀疏线性组合。稀疏分解的主要思想首先在[30]中提出。如果有精心设计的字典,则可以使用稀疏回归来估计。
非线性解混方法
线性混合模型是一个简化模型,在紧密混合的情况下或/和光在到达传感器之前经历多次反射时通常会失败[15]。或者,使用非线性模型[1]、[2]。双线性方法通常用于双散射。他们假设传感器接收到的光与两种材料相互作用。这是使用材料端元之间的Hadamard 产品的额外混合项进行建模的。Fan 模型[194]、[17] 是该模型的变体。Fan 模型的一个缺点是泛化性;因此,它对于线性混合表现不佳数据集。多项式后非线性混合模型(PPNM)[195]、广义双线性模型(GBM)[196]和线性二次模型(LQM)[17]被提出来推广线性混合的 Fan 模型。然而,它们包含超参数来描述线性项和非线性项之间的权衡。在[197]中,提出了一种非线性低秩张量解混合算法来求解GBM。双线性模型在某些特定应用中具有物理解释,例如树冠场景;然而,它们有几个缺点。它们有很多参数,估计的丰度很难解释。此外,它们通常不包括自交互或考虑实例视场之外的物体的反射[17]。此外,它们仅限于次级相互作用。因此,已经开发了几种非线性混合模型,例如多线性混合模型(MLM)[198]和p线性(p>2)混合模型(pLMM)[199]- [201]被提出用于多个入射光的相互作用。核方法也被用于非线性解混[17]。它们表示更高维空间中的数据以使问题线性化。因此,线性模型在高维空间中变得有效。在[202]中,[203]中提出了一种用于非线性解混合的核非负矩阵分解(kernel-NMF)。FCLSU 问题可以使用支持向量机 (SVM) 来解决。数据中的纯像素是跨越数据单纯形的公共支持向量,并允许估计单纯形内包含的所有像素的丰度。因此,[204]中提出了用于非线性谱分解的核支持向量机。辐射传输模型是基于数学物理的混合模型,可用于重建紧密混合的材料 — 反射光谱[17]。基于此类模型的反问题非常难以解决。Hapke 模型通过将反射光谱转换为其单散射反照率 (SSA) 并应用线性分解来估计混合物内材料的面积分数。Hapke 模型的简化版本用于预测紧密混合物的组成 [8]、[205]。所提出的基于辐射传输模型的非线性分离方法通常假设纯材料的光谱反射率可用于估计分数丰度。深度网络也被提出用于非线性解混。基于深度 AE 的架构已广泛用于线性解混。在[206]中,提出了一种AE网络,其中编码器利用额外的非线性层来捕获数据的非线性。[207] 中提出了具有多任务学习的深度 AE。[208]中为 PPNM 提出了一种基于长短期记忆的自动编码器。[209]中提出的方法利用基于 3D CAE 的 PPNM 网络。[210] 中针对 Fan、双线性和 PPNM 使用了监督 AE。径向基函数 (RBF) 核和 K均值聚类分别用于估计端元数量和端元谱。基于深度学习的非线性解混合技术通常是使用 PPNM 的基于 AE 的网络,正如我们所讨论的,它们可能具有上述双线性模型的缺点 [211] – [213]。GAN 架构也被探索用于非线性解混合。在[214]中,使用循环一致损失来确保重建除了两个 GAN 损失之外。CNN是基于[215]中的Hapke模型(HapkeCNN)设计的,将物理模型纳入学习过程。
总结及结论
假设我们已经捕获了光谱数据集,现在手头有一个分解问题,我们需要估计材料的丰度。主要问题是选择哪种方法以及选择哪组方法来解决问题。事实上,第一步是评估我们的问题,看看线性混合模型或其变体是否适合我们的问题。这个决定需要先了解问题的物理原理。例如,如果您正在处理紧密混合物或近距离和微观场景,则应该使用非线性模型。如果您正在处理宏观的地球观测问题,那么线性模型或其变体将是合适的。在一些研究中,非线性模型比线性模型表现更好,然而,人们可能会注意实际应用中模型的选择。通常,线性模型更为通用。在这里,我们阐明了每个类别成功的关键。监督(或顺序)分离的成功取决于测量、提取或估计的端元的置信度(纯/非纯场景)。因此,如果我们对最终成员没有信心,我们就不应该使用监督方法。换句话说,有监督的方法也许是高置信度的最终成员的最佳选择。当我们掌握了场景中材质的先验信息和精心设计的端元库时,半监督分解就可能成功。半监督也适合捕获光谱变化。半监督分离的成功取决于端员库的质量。当没有库、数据集中没有纯像素(包括高度混合的场景)或测量、选择或估计的端元的置信度时,应选择盲解混合方法低。应谨慎使用它们,并且估计的端元应始终经过物理解释。尽管取得了相当大的进步,光谱分解仍被认为是高光谱分析中最具挑战性的任务之一。在这里,我们描述了一些主要的分解挑战。
▪ 线性模型比非线性模型更通用。然而,从一个数据集到另一个数据集,它们的性能可能会显着下降。参数选择对分解方法的性能有很大影响。当涉及到现实世界的数据集时,最佳参数的选择非常具有挑战性。
▪ 线性分解方法的性能通常会因端元数量的增加而降低。对于具有较多端元的数据集,线性分解可能会失败。
▪ 光谱变化仍然是一个很大的挑战,可能会大大降低线性解混的性能。主要挑战之一是缺乏具有基本事实的真实数据集。
▪ 多时相和多源光谱分解也是具有挑战性的任务。考虑到高光谱数据量大,可扩展的分解是全球监测的关键。
关注查看更多信息