Mixed-cell cellular automata: A new approach for simulating the spatiotemporal dynamics of mixed land use structures
混合元胞CA模型:一种新的混合土地利用结构时空动态模拟方法
传统元胞自动机(CA)模型通常假设每个元胞在每个时刻都只包含一种土地利用类型,因此传统 CA 模型忽略了元胞内部的混合土地利用结构。我们的最新研究提出了一种基于混合元胞的CA模型(Mixed-cell Cellular Automata,MCCA),该模型的元胞内部含有各类用地的覆盖比例,即元胞内部包含土地利用结构,为混合土地利用结构的时空动态建模提供了新的视角。与传统的 CA 模型相比,混合元胞 CA 模型在元胞自动机的四个基本要素方面都有所不同,包括元胞状态、元胞空间、元胞邻域和转化规则。本文所提的 MCCA 模型利用随机森林回归算法,基于两期土地利用之间的变化自动构建元胞自动机的转化规则;并提出了模拟亚元胞尺度上多种土地利用类型之间相互竞争的机制,该机制可以用于定量地模拟像元内部土地利用结构的变化。此外,本文还提出了混合元胞 CA 模型的验证指标 mcFoM。我们将 MCCA 模型应用于武汉“1+8”城市圈的土地利用结构变化模拟当中,实验结果表明,MCCA 能够模拟土地单位内土地利用比例的精细及时空连续的变化。MCCA 模型的提出是地理元胞自动机应用的新的尝试和理论的重要补充,推进了混合土地利用研究从静态制图到动态模拟的发展。MCCA 的软件已在 https://github.com/HPSCIL/Mixed_Cell_Cellullar_Automata。
Keywords: Mixed cell,Cellular automata,Land use structure,Mixed land use,Land use change
需要对土地利用和土地覆盖(LULC)进行预测,以分析 LULC 变化对各种社会经济和生态过程的影响,包括人口增长、经济发展、碳循环、景观动态、地表水文和气候变化(Li et al.,2017,Pontius et al.,2011,Sohl et al.,2010)。因此,土地利用模型可以帮助了解土地利用系统的动态,并在规划实践中预测未来的土地利用变化,以实现更可持续的发展,并帮助保留生态安全(Huang,2014,Sohl et al.,2014,Verburg et al.,2002)。元胞自动机(CA)由于其简单且具有天然的时空动态性(Chaudhuri and Clarke,2013,White et al.,1997,He et al.,2020),已被广泛用于模拟多尺度的土地利用变化(Basse et al.,2014,Dong et al.,2018,Liang et al.,2020)。
传统上,地理空间 CA 模型假设系统内的每个元胞都是统一的土地利用类型,并在每个时间戳分配一个离散的状态标签(Chen et al.,2013,Pontius et al.,2007,Yeh and Li,2002,Zhai et al.,2020)。换句话说,传统 CA 模型的元胞状态是纯粹的、离散的(Clarke and Gaydos,1998,Pijanowski et al.,2006)。然而,由于土地利用模式的复杂性,特别是在城市中,一块土地通常是多种土地利用类型的混合物,服务于多种功能(Abdullahi,Pradhan,Mansor,& Shariff,2015)。因此,在 CA 模型的常用尺度下(如 30m × 30m 或更大),一个元胞的土地空间往往包含不同覆盖比例的各种土地利用类型,这意味着 CA 模型的网格(也称为元胞空间)不仅由纯元胞组成,而且还包括大量具有多种土地利用结构的混合元胞(Foody,1996)。例如,一个城市商业元胞可能包含政府办公室和住宅,一个农业元胞可能包含道路、房屋和池塘。值得注意的是,虽然“混合元胞”一词最早由(Hu and Li (2004))提及,但他们的“混合元胞”指的是点、多线和多边形的混合,不同于本研究中“混合元胞”的概念,它代表了一个元胞内多种土地利用类型的混合。
土地元胞内部的混合结构是规划策略重点关注的问题之一(Song & Knaap,2004),因为它们与人的流动和能源消耗密切相关(Abdullahi et al.,2015),所以会影响环境的可持续性和土地元胞的功能(Liu et al.,2018,Yue et al.,2017)。以往的研究主要集中在混合土地利用的识别、测量和变化分析上(Shi & Yang,2015),只有少数研究关注混合土地利用的动态模拟(Charif et al.,2017,Omrani et al.,2015)。理解动态变化可以为理解混合土地利用与驱动因素之间的相互作用提供丰富的信息,为未来的可持续发展制定科学合理的土地利用计划。因此,需要一种新的建模方法来模拟土地利用结构的时空动态变化,以涵盖混合土地元胞内土地利用类别的比例。鉴于 CA 在土地利用建模方面的成功,具有混合元胞的 CA 模型似乎是实现这一目的的一种有希望的方法。
基于混合元胞的土地利用结构变化模拟是一个挑战,因为混合元胞 CA 与传统的纯质元胞 CA 有着本质的区别。CA 模型由五个基本元素组成:元胞、网格(或元胞空间)、邻域、一组初始状态和过渡规则。所有这些基本元素都必须为混合元胞的 CA 重新设计。此外,评估方法也必须重新设计,因为常用的方法主要是为纯质元胞 CA 设计的。
地理空间 CA 中的每个元胞都代表一个土地单元,每个元胞都有一个状态,代表土地单元的属性/状态。在纯质元胞 CA 模型中,从有限集中抽取一个离散的状态标签分配给一个元胞,代表土地单元的统一土地利用类型(Li & Yeh,2000)。与纯质元胞不同,混合元胞的状态是由一系列连续测量的分量组成的,每个分量代表某种土地利用类型的覆盖比例(图 1)。通过改变每个元胞的状态(即改变元胞内土地利用类型的覆盖比例),混合元胞 CA 模型能够模拟每个土地单元内土地利用混合物的连续结构变化,而纯质元胞 CA 模型只能模拟整个元胞的离散变化(Li et al.,2011,Liu and Phinn,2003,Seto et al.,2012)。
图 1. 混合元胞 CA 与纯质元胞 CA 的对比:元胞、邻域和网格的表示。
通常情况下,地理空间 CA 的网格是由一组排列在二维空间中的元胞组成,代表整个相关区域。随着时间的推移,网格内的元胞分别改变其状态,从而共同模拟区域内某一现象(如土地利用和/或土地覆盖)的时空动态。由于每个元胞有一个离散的状态标签,纯质元胞 CA 模型除了有其他层的驱动因素外,只有一层目标现象的网格(Wu & Webster,1998)。由于混合元胞的状态是由一系列的土地利用成分(即土地利用类型的覆盖比例)组成的,因此混合元胞 CA 的网格是一个多层结构,每一层都代表了某一土地利用类型的覆盖比例在区域内的分布。
邻域效应对 CA 模型至关重要(Li & Yeh,2002)。在纯质元胞的情况下,CA 模型往往用某一元胞周围邻域内各种土地利用类型的元胞数量(即移动窗口)来表示邻域状态(Chen et al.,2013,Shu et al.,2017,Wu,2002)。因此,邻域内土地利用状态的变化受其大小限制。例如,当使用 3 × 3 窗口时,邻域内的土地利用类型不超过 8 种(3 × 3 - 1)(Chen,Li,Liu,Ai,& Li,2016)。以连续测得的多种土地利用类型的覆盖比例作为混合元胞的状态,可以更详细地表示元胞的土地利用结构(图 1)。
混合元胞 CA 模型的过渡规则与纯质元胞 CA 模型的过渡规则主要有两个方面的不同。首先,纯质元胞 CA 模型在元胞尺度上通过不同土地利用类型之间的竞争来模拟土地利用的变化(Yang, Su, Chen, Xie, & Ge, 2016)。然而,混合元胞 CA 模型必须通过每个元胞内土地利用成分之间的竞争来估计土地利用类型的比例变化。混合元胞 CA 模型的过渡规则不仅要像纯质元胞 CA 模型(Verburg & Overmars,2009)那样考虑元胞尺度(如元胞位置的驱动因素影响)、邻域尺度(如邻域状态)和区域尺度(如土地需求)的影响,还要考虑多个土地利用组件之间的亚元胞尺度竞争。其次,与纯质元胞 CA 模型模拟各元胞土地利用的质变相比,混合元胞 CA 模型模拟的是各元胞内部土地利用成分之间的量变。这一特点决定了混合元胞 CA 模型的过渡规则的构建应建立在对土地利用历史过渡的定量分析基础上。因此,在模拟多种土地利用类型的土地利用变化时,混合元胞 CA 模型的前景对于 CA 模型从定性模拟转向亚元胞尺度的定量模拟具有重要意义。
最后,混合元胞 CA 模型的模拟结果是多种土地利用类型的覆盖比例分布(即图 1 中的多层网格)。传统的评估方法,如“混淆矩阵”(Congalton, 1991)和“优点图”(Pontius & Cheuk, 2006)都是针对纯质元胞 CA 的离散模拟结果设计的,无法评估混合元胞 CA 模型的连续和多维模拟结果。因此,评估混合元胞 CA 模型的精度是一个需要处理的问题。混合元胞的元胞状态是一个多维数组,代表相应土地单元的土地利用结构。因此,模拟结果与地面实况之间的土地利用结构相似性是混合元胞 CA 模型性能评估的重要内容。一个完善的混合元胞模拟框架需要合理可靠的评估方法,可以评估连续和多维分布的精度,评估模拟结果与地面真实之间的混合土地利用结构相似性,甚至评估混合元胞模拟的变化精度。
一些学者已经意识到模拟城市混合用地结构动态的重要性。例如,(Li and Yeh (2000))提出了一种灰色 CA,可以表示元胞内城市的百分比。(Yeh and Li (2002))提出了在模拟城市发展时结合密度梯度的 CA 模型。(Liu and Phinn (2003))发展了一种模糊集 CA 来模拟各元胞内城市土地成员度的变化。(Sunde, He, Zhou, Hubbart, and Spicci (2014))提出了一个 I-CAT 模型,可以提供每个元胞内不透水表面的定量信息。最近,(Liu et al. (2018a))发展了一个梯度 CA 模型,该模型可以表达不同城市化阶段的时间演化特征。(Mustafa et al. (2018))也开发了一种基于多子逻辑回归和遗传算法的元胞自动机来模拟城市土地的致密化变化。但这些研究只关注城市部分的增长,不适用于多种土地利用类型结构变化的模拟。(Ching and S., Milne, G (2003))发展了一种包括每个元胞人口密度和流动性的流行 CA(ECA)模型,(Tovar, Patel, Niebur, Sen, and Renaud (2006))也提出了一种混合 CA 模型(HCA),用于机械设计中的拓扑优化。ECA 和 HCA 的元胞状态是由一组变量组成的,与本研究中的混合元胞类似。但由于研究领域和建模理论的不同,ECA 和 HCA 模型不能用于地理空间研究领域,模拟混合用地的结构变化。
值得一提的是,(Omrani et al. (2015))提出了多标签(ML)概念,即每个空间单元可以同时属于多个类别。(Omrani, Tayyebi, and Pijanowski (2017))也用 ML-CA-LTM 模型模拟了多标签的土地利用变化,这在模拟土地混合利用的动态方面是一个很大的进步。(Charif et al. (2017))采用多标签学习方法--多标签支持向量机,Rank-SVM 来定义 ML-CA 的过渡规则,显著提高了模拟精度。但是,ML-CA 系列模型中使用的多标签土地利用数据不包括每个元胞中土地利用类型的覆盖比例。因此,目前仍缺少专门用于模拟元胞内多种土地利用类型覆盖比例连续、定量变化的混合元胞 CA 模型。
CA 的性能在很大程度上取决于过渡规则(Yang, Liu, Li, & Ge, 2018)。在地理空间研究中,特别是在土地利用变化研究中,CA 的过渡规则通常采用两种方法之一进行推导:(1)过渡规则由模型设计者设定,然后利用历史数据对参数/系数进行校准。典型的例子包括 DUEM(Batty,Xie,& Sun,1999)、SLEUTH(Clarke & Gaydos,1998)和多标准评价(Yang et al., 2016)模型;(2)或者过渡规则由数据挖掘模型/算法利用历史数据自动构建(Hagenauer,Omrani,& Helbich,2019)。近年来,大量的 CA 模型采用第二种方法开发,因为它的主观假设较少,而且更加灵活。例如,人工神经网络(ANN)模型(Liang et al., 2018, Yang et al., 2019, Yeh and Li, 2002)、随机森林(RF)模型(Kamusoko and Gamba, 2015, Zhang et al., 2019)、布谷鸟搜索算法(Cao, Tang, Shen, & Wang, 2015)等都被用来推导土地利用类型/变化及其驱动因素之间的关系。鉴于纯质元胞 CA 的离散状态标签,以往的研究通常将过渡规则的挖掘视为分类问题。过渡规则输出的是某一元胞在驱动因素影响下的离散土地利用类型(即标签)。这样的分类方法只能得到定性的、临时性的过渡规则。
与传统的 CA 模型不同,混合元胞 CA 模型关注的是每个元胞中多个土地利用成分的连续和定量变化。因此,混合元胞 CA 模型的过渡规则的构建不是分类,而应看作是一个回归问题,以发现土地利用成分的量变与驱动因素之间的关系。回归方法在 CA 模型中已经得到了应用。例如,(Liu et al. (2018a))采用支持向量回归(SVR)来挖掘城市增长与其驱动因素之间的关系。但该研究仅模拟了一种土地利用类型(即不透水面)的连续变化,无法用于模拟混合元胞内部多种土地利用成分之间较为复杂的相互转换(即结构变化)。因此,以往的研究缺乏对混合元胞 CA 模型定量过渡规则的挖掘框架。
综上所述,混合元胞 CA 模型与传统 CA 模型在元胞状态、网格、邻域、过渡规则和评估方法等许多重要方面都有本质区别。以往的方法无法模拟混合元胞内部多种土地利用成分的结构变化。本研究旨在开发一种用于土地利用结构变化模拟的混合元胞 CA 框架,该框架包括基于回归方法构建定量过渡规则的挖掘方法、模拟混合元胞内部土地利用成分相互变化的 CA 模型,以及评估混合元胞 CA 模型模拟精度的方法。混合元胞 CA 模型的开发和评估是土地利用模型的重要进展,可以为规划者和研究者制定区域政策、探索土地利用变化的原因和后果提供有效的模拟方法和重要支持。
本研究提出了一种用于土地利用结构变化模拟的混合元胞 CA 框架。这种框架基于 1.1 节中提到的混合元胞的元胞状态、网格和邻域的概念表示(图 1),主要包含三个部分。(1)用于发现混合元胞内部土地利用成分变化与各种驱动因素之间的数量关系的挖掘方法;(2)用于模拟混合元胞结构变化的 CA 模型;(3)用于评估混合元胞 CA 性能的一套评估方法(图 2)。
图 2. 混合元胞 CA 模型框架
为了使 CA 模型能够模拟混合元胞的结构变化,必须推导出土地利用成分的变化与驱动因素之间的关系。如上所述,由于元胞的结构变化是连续的,而不是离散的,因此这种关系的发现应视为回归问题而不是分类问题。许多回归方法可以用于这个目的,如人工神经网络(ANN)模型,支持向量机(SVM)或随机森林(RF)。在本研究中,由于 RF 能够克服空间变量之间的多重相关性问题,特别是在高维拟合情况下,因此采用了 RF(Palczewska,Palczewski,Marchese Robinson,& Neagu,2014)。RF 是决策树算法的一种聚合,即从每个训练子集中构建一棵单独的决策树。RF 的泛化误差可以通过对这些决策树的误差进行平均计算(Yao et al., 2017a)。RF 常用于解决分类(RFC)和回归(RFR)问题,并被证明是挖掘土地利用变化模拟过渡规则的有效方法(Gounaridis et al., 2019, Yao et al., 2017, Yao et al., 2017)。
RFR 的原理是,对于一个任意特征(如本研究中的驱动因子)$A$,可以确定一个将该特征
其中,$x$ 是第
图 3. 随机森林回归(RFR)的原理图。
RFR 用于拟合各土地利用成分的比例变化与混合元胞驱动因子之间的关系。一旦利用历史样本通过 RFR 的训练过程得出这样的关系,在给定一组相应位置和时间的驱动因子值的情况下,就可以预测某一混合元胞的相应土地利用成分在某一时间戳的变化潜力。与分类问题通常通过对多种土地利用类型进行训练来解决不同,在回归问题中对每个土地利用组成进行训练是一种比较常用的方式(Liu et al., 2018a)。此外,同时拟合多个阵列可能会影响 RFR 的拟合精度。因此,我们在本研究中分别训练了每种土地利用类型的发展潜力。这种训练方法在许多其他基于逻辑回归的研究中得到了广泛的应用(Verburg et al., 2002, Sohl et al., 2016)。虽然在训练过程中不能解决多种土地利用成分之间的相互作用,尽管如此,我们仍然可以在模拟过程中解决相互作用到不同土地利用成分之间的竞争,这将在 2.2 节中讨论。
在训练 RFR 之前,必须将各土地利用成分的比例变化转换为 RFR 的因变量:
其中
经过这样的预处理后,通过 RFR 的训练过程,从历史数据集中随机抽取样本,得出土地利用成分
其中,$Y_{i,k}^s$ 表示
一旦得到
其中
我们提出了一个自上而下(即宏观土地利用需求)和自下而上(即局部土地利用竞争)效应相结合的 CA 模型来模拟土地利用结构的时空动态。土地利用需求与土地利用结构之间的反馈通过自适应系数,推动土地利用量接近目标土地利用需求。在模拟过程中,首先在每个混合元胞内通过轮盘赌的方式,使多个土地利用成分相互竞争,确定某个土地利用成分的覆盖比例是否增加,以及增加的数量。然后通过一套定量的过渡规则,估算出其他土地利用成分的数量转换为增加的土地利用成分。详见图 4。
图 4. 混合元胞 CA 模型的反馈、竞争和量变机制。
在 RFR 计算
其中,$TP_{i,k}^t$ 为混合元胞
其中,$|D_k^{t-1}|$ 和
在迭代过程中
在得到总发展概率
其中
其中,$IA_{i,k}^t$ 代表土地利用成分
当土地利用成分
其中
其中,$DA_{i,o}^t$ 表示在迭代
在未来各种土地利用类型需求的驱动下,将上述过渡规则应用于所有元胞,确定土地利用成分的增加和减少,并评估各土地利用对的过渡量。当模拟的土地利用量与目标土地利用需求量相等时,混合元胞 CA 模型将输出
传统的评估方法,如“混淆矩阵”(Congalton,1991)和“优点数字”(Pontius & Cheuk,2006),主要是为了评估纯质元胞 CA 产生的离散仿真结果的准确性,不能用于评估混合元胞 CA 模型的连续和多维仿真结果。因此,我们提出一种评估方案,可以从三个方面对混合元胞 CA 模型的仿真精度进行评估。(1)所有土地利用成分分布的总精度;(2)混合元胞模拟的新图优指标;(3)模拟结果与地面实况的土地利用结构相似度。
本研究采用亚像元混淆矩阵(Sub-pixel Confusion Matrix,SCM)来评估混合元胞 CA 模型仿真结果的总精度。SCM 是由(Pontius and Cheuk (2006))提出的,是传统混淆矩阵的改进版,用于评估软分类的准确性,适用于评估混合元胞 CA 模型的模拟结果。
第一步是从模拟和实际的土地利用图中随机选取若干个元胞。第二步是根据以下公式计算各土地利用分量($u$ 或
其中,$p_{iuv}$ 是第
最终 SCM 构建完成后,可以通过以下公式计算出几个精度指数,包括地图层面的整体精度($OA$)和类别层面的生产者精度($PA_v$)和用户精度($UA_v$):
我们使用从 SCM 导出的
混合元胞模拟的精度无法通过纯质元胞模拟中常用的传统优点图(FoM)(Pontius et al., 2008, Pontius and Millones, 2011)来验证。本研究提出了混合元胞优点图(mcFoM)来验证混合元胞 CA 模型的仿真精度。首先,我们通过用初始分量($I_{k,i}$)减去地面真值($G_{k,i}$)和模拟分量($S_{k,i}$),得到元胞
其中
混合元胞的优点图(mcFoM)可以被表达为:
其中
土地利用结构的相似性是评价混合元胞 CA 模拟结果的另一个重要方面,这是多维模拟结果的独特特征。一个元胞的土地利用结构是指该元胞土地利用成分的覆盖比例阵列,所有土地利用成分之和等于1。我们计算了相对熵(RE)作为评价土地利用结构相似性的指标, 它可以代表模拟过程的信息衰减(Song & Knaap, 2004). 每个元胞的 RE 定义为:
其中,$RE_i$ 表示混合元胞