bigdataresearch的个人博客分享 http://blog.sciencenet.cn/u/bigdataresearch

博文

[转载]基于扩散模型的不完整数据下细粒度城市流量推断

已有 1059 次阅读 2024-3-5 11:01 |系统分类:论文交流|文章来源:转载

图片

本文刊载于《智能科学与技术学报》2023年第3期专题“扩散模型和人工智能内容生成

图片

郑雨豪  王森章图片

中南大学计算机学院,湖南 长沙 410083

DOI:10.11959/j.issn.2096-6652.202330

摘 要 为了获取城市每个路段上精细的交通流数据,需要部署大量的传感装置以及较密集的观测站,这会增加日常运营与设备维护的成本。同时,传统的交通流数据采集技术存在很多噪声和误差,检测得到的数据结果并不能保证其真实可靠。因此,如何利用粗粒度、混入噪声的传感器观测数据推断细粒度的城市交通流,是一个重要的研究课题。针对上述问题,提出了一种基于时空注意力的去噪扩散模型,提供细粒度的城市交通基础数据,以满足不同场景下的交通需求,为交通规划与智能交通系统构建奠定基础。

关键词 城市交通流;细粒度推理;时空注意力;去噪扩散模型

0 引言

《数字交通“十四五”发展规划》为我国交通运输行业发展指明了方向,交通要全方位向“数”融合。新一代信息技术可以监控整个交通的运行情况,可以充分挖掘和利用信息数据的价值,盘活现有数据,赋能交通部门的管理与决策[1]。随着智能交通信息的发展,其对更细粒度的交通流数据的分析需求越来越高。精准的交通流分析预测可以为紧急救援、日常出行等提供更实时、可靠的路径规划。

细粒度的城市流对于与智慧城市相关的应用,如城市规划、城市更新和交通管理等,都至关重要[2]。为了获取重要路段的交通流参数,需要大量的传感装置以及密集分布的控制站、观测站,这会增加日常运营与设备维护的成本。因此,基于粗粒度交通流数据的细粒度推断引起了广泛关注。然而,现有的传感器检测技术受到自然环境中温度、湿度、天气等不确定因素的影响,检测得到的数据结果会有一定程度的缺失和缺陷,即粗粒度交通流数据并不完整和可靠。目前大部分传统的推断方法只考虑了完整数据的情况,并未考虑到数据缺失的情况,小部分考虑了数据有噪声的情景,但并未考虑全面且效果欠佳。因此,本文将着重考虑数据缺失时,如何利用粗粒度数据来推断城市交通细粒度数据。此外,由于本文还考虑了各种交通数据的复杂情况,因此提出的方法有更好的普适性和鲁棒性。本文的主要贡献如下。

(1)为解决粗粒度向细粒度转化时原始数据缺失的问题,提出了基于时空注意力的去噪扩散模型STDiff。

(2)首次将去噪扩散概率模型(DDPM)引入城市粗细粒度交通流转化任务中,通过时空特征提取网络捕获交通流的时空信息,通过特征提取网络提取天气、温度等城市环境语意信息,提升了模型的泛化性。

(3)在TaxiBJ数据集上进行了模型效果评估,并在完整数据下的细粒度流量推断、不完整数据下的细粒度流量推断这两种情况下,与现有基线模型进行了效果对比。结果表明,STDiff不仅在基于完整交通流数据的细粒度推断上优于已有的最优模型,在不完整交通流的场景下也取得了远高于传统模型的性能。

1 国内外相关工作

细粒度城市流量监测系统是智慧城市信息基础设施的重要组成部分,为城市规划和交通管理等各种应用提供基础。为了获得细粒度的城市流量观测数据,需要在城市的不同区域部署大量的传感器,导致日常运维开销巨大。随着智慧城市在全球范围内的快速发展,人力和能源成本将成为地球进一步智能化的阻碍因素。因此,如何基于稀疏、粗粒度的传感器观测数据推断出细粒度的城市流,成为一个重要的研究问题,近年来也引发越来越多研究者的关注。

传统上,双线性、双三次和最近邻插值[3]等统计方法被广泛应用于细粒度城市流量推断。Xu和Zhu[4]设计了一种用于城市流量推断的张量分解方法。Chen等人[5]提出了一种用于检测细粒度城市事件的张量协同分解模型。但是,这些方法只考虑了城市流量数据,而忽略了天气、节假日等外部环境特征,因此性能不理想。近年来,计算机视觉中超分辨率算法取得巨大成功[6],研究人员试图将细粒度的城市流量推断建模为一个时空数据超分辨率问题[7],因为城市单元区域的城市流量可以被视为空间地图图像。SRCNN[8]首次将双三次插值方法与卷积神经网络结合,实现了图像的超分辨率。为了解决SRCNN接收域小、收敛速度慢的问题,Kim等人[9]采用深度卷积网络和残差学习策略提出了VDSR。UrbanFM[10]首次采用数据超分辨率方法进行城市流量推断。与图像超分辨率不同,UrbanFM包含了一个提取外部特征(如天气、温度和假日)的外部因子融合网络和一个推理网络。为了进一步提高UrbanFM在高分辨率下的性能,UrbanPy[11]采用了一个由多个组件组成的金字塔结构的网络模型,其中每个组件都是一个小尺度的原子上采样器,将原始任务分解为多个子任务。Liang等人[12]设计了一个名为DeepLGR的通用框架,用于全市人群流分析,解决不完全粗粒度数据的细粒度流量推理问题,DeepLGR包含局部特征提取模块、全局上下文模块和特定区域的预测器。

然而,上述方法的局限性在于未考虑数据缺失对数据流推断的影响。为了弥补以往方法的不足,在多任务学习框架下,MT-CSR[13]同时完成不完整城市交通流补全和细粒度交通流超分辨率推断的任务。它考虑了数据中的局部地理和全局语义相关性,采用了联合训练和端到端优化的策略。但MT-CSR未考虑到交通城市流的丰富语义,效果并不显著。

2 术语定义和问题描述

下面对本文将要使用的一些术语进行定义。

定义1 网格地区:根据经纬度把一个城市划分为图片网格图,网格图中所有网格区域表示为图片,其中图片是网格图的第图片行和第图片列的单元区域。

定义2 交通流量图:设图片是城市交通流轨迹的集合。给定网格区域图片,在时间图片城市交通流的流入和流出被定义为:

图片

(1)

图片

(2)

其中图片表示城市交通流,图片表示图片在时间图片不在区域图片内,图片表示f在时间图片在区域图片内。在时间图片所有区域的交通流入和流出被表示为城市交通流量张量图片

定义3 粗粒度和细粒度城市交通流量图:粗粒度的城市交通流量图是通过交通传感器采集的原始交通数据构建的。给定放大因子图片,在细粒度流中对图片范围内的邻近网格区域内的交通流量进行累计,即可获得粗粒度流。譬如,图1显示的是图片时粗粒度和细粒度城市流之间的关系,每个粗粒度城市交通流由图片个较小的城市流组成。将时间图片上的粗粒度和细粒度城市流量图分别表示为图片图片,其中NINJ分别表示细粒度下的流量图的长和宽。

图片

图1   粗粒度和细粒度城市流之间的关系

定义4 不完整的粗粒度城市空间流量图:由于传感器可能出现器械损坏、传输故障等问题,获取的粗粒度交通流数据并不完整。将时间图片上,数据不完整情况下的粗粒度城市交通流量图表示为图片。如图2所示,本文希望通过左边不完整的粗粒度城市流获得右边完整细粒度的城市流。

图片

图2   不完整的粗粒度和细粒度城市流

问题描述:给定放大因子图片,根据时间t和前k个时间的不完整粗粒度城市交通流数据图片,以及城市的天气、节假日、道路结构等外部语义和环境信息,推断出一个完整的细粒度城市流空间图图片

3 方法的提出

针对上述问题,本文提出了一种基于时空注意力的去噪扩散模型STDiff,对不完整且包含噪声的城市交通流数据进行细粒度交通流推理。

STDiff是一个以U-Net为骨干架构的条件DDPM。DDPM包含前向过程和反向过程各N个步骤。前向过程是预定义好的,而反向过程是可以学习的。如图3所示,在反向过程的每个步骤中,STDiff包含STTNet、Extractor和Embedding模块。STTNet能够更有效地捕捉城市流量数据复杂、动态的时空相关性。Extractor用于提取外部语义和环境信息,如外部因素和土地属性。Embedding用于嵌入DDPM的步骤位置。考虑到城市交通流数据在扩散过程中的独特性,本文将外部因素和土地属性这两类特征灵活地整合到U-Net中,并提出了一种改进的条件DDPM反向扩散策略。在每个去噪步骤中,将STTNet提取的特征图和粗粒度流量图叠加到流量图输入上,扩展反向去噪过程的输入通道,U-Net、STTNet和Extractor以端到端的方式进行联合训练。

图片

图3   模型整体框架

3.1 DDPM

深度学习在生成任务中显示出巨大的潜力,生成模型可根据某些隐含的参数随机生成观察结果。然而,目前的生成模型面临四大问题,即生成过程缓慢、数据处理类型单一、似然优化、模型降维。近些年,许多优化工作被陆续提出。

下面从去噪扩散模型的正向扩散、反向扩散、内部的U-Net结构以及扩展的条件信息嵌入来详细介绍该模型。

3.1.1 正向扩散过程

给出一个从真实数据分布中取样的数据点图片,DDPM定义了一个前向扩散过程,通过图片个步骤分步向样本添加少量的高斯噪声,产生一连串的噪声样本图片,步长由一个方差表图片来控制(为了方便数据表示,这里的过程数学描述没有添加表示时间的上标图片)。

从第图片步到第图片步的采样过程如下:

图片

(3)

从本身的样本图片采样得到图片

图片

(4)

随着图片的变大,数据样本图片逐渐失去可识别的特征。当图片时,图片相当于一个各向同性的高斯分布。

如图4所示,从左往右是一个正向加噪过程,可以在任意的时间步长对图片进行采样。

图片

图4   正向加噪/反向去噪的马尔可夫链

在任意第图片步中,用重参数化的技巧,以封闭的形式取样。令图片以及图片,则有:

图片

图片

(5)

所以可得:

图片

(6)

3.1.2 反向扩散过程

若逆转上述过程并从图片中取样,就能从高斯噪声输入图片中重现真实样本。注意,如果图片足够小,图片也将是高斯分布,但是不能轻易估计图片,因为它需要使用整个数据集。因此,需要学习一个模型图片来近似条件概率,以便运行反向扩散过程。

反向过程的采样计算式如下:

图片

(7)

图4从右往左是一个反向去噪过程,通过模型训练,学习正向传播每一步的均值图片和协方差图片,从而反向去噪。

值得注意的是,当以图片为条件时,反向去噪的条件概率是可控的:

图片

(8)

使用贝叶斯法则,可以得到:

图片

图片

图片

(9)

其中,图片是一些不涉及图片的函数,在计算式的化简过程中可以省略一些系数的细节,按照式(9),通过对比标准的高斯分布密度函数得到想要的参数。

按照标准的高斯密度函数,均值和方差可以被参数化,结果如下:

图片

(10)

图片

(11)

反向过程的均值和方差被参数化之后,通过构建目标函数来训练模型,学习正向加噪过程的对应参数,从而达到去噪的效果。

训练所用的损失项图片的参数化是为了最小化均值图片与正向过程的差异:

图片

图片

(12)

Ho等人[14]发现,用忽略系数的简化方法训练扩散模型效果更好,所以对训练时的目标函数进行了微调:

图片

图片

(13)

从本质上来说,简化前后只是目标函数的形式略有不同,其实都是对正向过程关键参数进行学习,模仿加噪过程,从而实现有效的去噪。

3.1.3 U-Net结构

U-Net包含编码器和解码器,其中编码器是一个典型的卷积神经网络,用于提取输入图像的特征;解码器则通过上采样操作将编码器中提取的特征图还原为原始图像的大小,还能将特征图用于生成分割掩码。

U-Net的特殊之处在于,编码器和解码器间存在一个跳跃连接的结构,允许解码器中的每一层访问编码器中对应层的信息,这有助于解码器更好地还原原始图像的细节信息。

3.2 STTNet时空特征提取网络

结合交通流推断任务的具体场景,在第3.1节的基础上进一步考虑扩散模型的有条件生成变体,即图3中的图片,其中图片表示扩散步数的嵌入,图片图片是引导信息。图片包含凝聚了长短时序信息的时序特征,图片包含城市的所有外部因素。本文设计了特定的时空特征信息提取网络和外部因素提取网络,提取了交通问题所涉及的时序信息、温度、天气、道路等特征,具有很高的泛化性。

结合实际可知,某时刻同一条路段的流量规律与每周同一时刻该路段流量具有相似的模式,与近期该路段的流量也具有较强的相关性。综合考虑长程信息和短程信息,本文采用STTNet时空特征提取网络捕捉长短期的时空特征信息,为细粒度数据流推断提供进一步的指导。

如图5所示,STTNet由Pre-Conv Block和Vision Transformer(Vit)组成,用于学习局部和全局上下文中的空间相关性。此外,将历史数据作为基础预测,直接连接到输出。

图片

图5   STTNet网络框架

STTNet采用对称结构来处理长程时序数据图片和短程时序数据图片。长程时序数据图片包括当前时间图片对应的前3周相同时间的流量图,短程时序数据图片包括当前时间图片对应前6天时间(近一周)的流量图。由卷积网络组成的变换块Pre-Conv Block对图片图片进行预处理;Vit被用来提取出时序的特征信息图片图片;跳跃连接可以提取出预处理前的数据图片图片;最后,在融合层(Fusion)中自适应地融合上述的4个分量(图片图片图片图片),生成最终凝聚了长短时序信息的时序特征图图片。STTNet主要由下面的几个部分组成。

3.2.1 预卷积神经网络

一个区域内的交通流量通常与邻近区域高度相关。受此启发,本文设计了一个预处理卷积网络来捕获短距离的相关性,而将长距离的特征交给Vision Transformer处理。具体来说,采用图片的卷积核进行卷积,形成图片的感受野,这样的设计保证了预卷积模块最多只捕获图片个区域中的局部特征,可以很好地捕获短范围依赖性。将残差分量加入该分支中,残差连接使用1图片1的卷积核。以往的实验经验表明,预转换块可以较好地学习短期时空依赖性,将它们细化为紧凑的特征图,从而增强Vision Transformer的表现效果。

3.2.2 跳跃连接

为了保留历史数据中的原始相似模式,本文通过跳跃连接直接将输入图片图片添加到融合层,如图5中的蓝线所示。在添加之前,将历史数据在时间维度上聚合,从而适应输出的形状。对两个历史序列图片图片进行如下计算:

图片

(14)

图片

(15)

其中图片图片是两个残差分量,图片 (·)为聚集函数,其映射变换将矩阵维度映射为图片。在本文中,图片 (·)使用求和函数,两个残差分量在Fusion中自适应地聚合。

3.2.3 Vision Transformer

在预处理卷积网络之后,采用Vision Transformer来捕获全局依赖性。Vision Transformer由Patchify块和连续L个Transformer编码器组成。Patchify块包括patchify Stem和Linear Projection,在空间上将输入特征图分割为非重叠图片×图片的区域,并将每个区域线性投影为向量,每个向量包含一片区域的信息。此外,定义了二维空间上的可学习的位置编码信息。然后,将区域信息向量和区域的位置信息融合,送至Transformer编码器。编码器利用多头自注意力机制来建模长距离相关性,经过前馈神经网络后,再进行层归一化和残差连接处理,得到最终向量表示。最后,对最终向量进行resize和线性变换,生成输出图片图片

3.2.4 融合层

4个分量(图片图片图片图片)对输出结果的影响程度是不同的,对不同区域的影响也不同。为了衡量差异化的影响,使用参数矩阵的融合方法聚合了长短时序信息的时序特征图图片

图片

(16)

其中·表示逐元素乘法,图片是度量每个分量重要性的可学习权重参数。

3.3 Extractor城市语义提取网络

城市交通流会受到各种城市语义信息的影响。为了进一步提取城市的语义信息,本文设计了一个城市语义提取模块Extractor来学习、整合外部特征和土地特征,并将这两类特征作为条件约束纳入反向扩散过程,如图6所示。该模块对交通流问题中相关的天气、风速、道路结构等因素进行了完整全面的考量,使得模型具有较高的泛化性。

图片

图6   Extractor网络框架

外部环境因素包括连续因素和类别因素。将连续因素直接作为特征输入,而将类别因素输入特征嵌入层,使用外部因素编码器和土地特征编码器分别提取二者的特征。具体来说,外部因素编码器由两个带有Swish激活函数的MLP模块组成,土地特征编码器将ResNet-18作为主体结构。通过线性投射和归一化,将两个编码器得到的特征向量连接起来。然后,使用双层MLP对合并的特征进行处理,得到特征向量图片并输入U-Net中。

4 实验分析

4.1 实验设置

本文在出租车轨迹数据集(BJTaxi)上实验以评估模型的性能。BJTaxi包含从2015年3月1日到2015年6月30日的北京出租车行程轨迹数据,按照7∶2∶1的比例将整个数据划分为不重叠的训练集、测试集和验证集。

数据缺失分为随机区域缺失和时间片缺失。对于随机区域缺失,在训练过程中的每一批数据中,以0.5的概率将区域数据随机设置为0;对于时间片缺失,先对数据集进行预处理,在整个数据集中选择K个持续半天的时间间隔(例如,8:00—20:00的交通流量数据),然后在选定的时间段内,将区域中的交通流值设置为0。

4.2 基线模型

将本文提出的模型与以下6个基准模型进行比较。

(1)平均分配法(Mean):将粗粒度区域的流量平均分配到图片的细粒度区域,其中n是放大系数。例如,如果一个粗粒度区域的人群流量为4,若将其划分为4个细粒度小区域,则每个细粒度区域的流量为1。

(2)历史平均值法(HA):将历史城市流量的平均值作为预测值,然后将粗粒度城市流量平均分配到相应的4个细粒度区域。

(3)VDSR[8]:利用深度为20的深度卷积网络,通过多次级联小型滤波器进行图像超分辨率,从而有效地学习图像区域的上下文特征。

(4)SRResnet[9]:一种生成对抗网络,用于图像超分辨率。它引入了由对抗损失和内容损失组成的感知损失函数,能更好地还原数据的高频细节。

(5)UrbanPy[11]:一种细粒度城市交通流推理模型,它采用了包含多个组件的金字塔结构。每个组件都是一个小尺度的原子上采样器,包含外部因子融合网、推理网、建议网和修正网。

(6)MTCSR[13]:在多任务学习框架下同时完成城市交通流补全和细粒度超分。它考虑了数据的局部地理和全局语义相关性,采用了联合训练和端到端的优化策略。

4.3 模型效果对比

针对放大因子图片的情况,对北京的粗粒度出租车流进行了细粒度推断,在每个时间图片推断出一个完整的细粒度城市交通流图图片。采用平均绝对百分比误差(MAPE)评估推理性能,绝对值越低,模型效果越好,定义如下:

图片

(17)

实验结果如表1所示,可以看出,大多数模型在数据完整的情况下有很好的表现,性能差距主要体现在数据缺失或退化的情况。传统的统计方法效果不佳,因为它们只是简单地将大量错误数据平均化,实验结果与地面实况有很大偏差。基于图像超分辨率的算法(如VDSR和SRResnet)可以有效地捕捉交通流数据的模式,对于缺失数据和有噪声数据的情况表现出一定的适应能力。细粒度城市交通流量推断方法利用了与交通相关的辅助信息,在数据缺失的情况下,仍能保持较好的性能。

表1   不同模型的MAPE

图片

本文提出的模型对数据缺失或有噪声数据的情况的适应能力更强。在完整数据和数据缺失20%的情况下,STDiff的MAPE分别为17.78%和19.35%,与最佳基线模型相比,分别提高了23.10%和32.34%。值得注意的是,当数据从完整变成缺失20%时,STDiff的效果提升更加显著。这表明,随着任务难度的增加,本文提出的模型的优越性更加明显。这是因为STDiff结合了几种基线模型的优点。首先,STDiff使用了自注意模块而不是简单的卷积架构,对复杂、长期的时间相关性具有更强大的学习能力。其次,扩散模型的设计适用于此类有误差的数据,因为恢复噪声数据的过程可视为反向去噪过程的一部分,这使得STDiff在城市交通流推断中表现更佳,在现实噪声环境中表现出更卓越的性能、更好的鲁棒性和泛化能力。

4.4 模型效果可视化

为了更直观地比较本文提出的模型和基线模型的性能,在数据不完整的情景下,对2015年5月1日12:00的BJTaxi数据进行细粒度推断,并提供一个可视化案例,如图7所示。其中Input表示完整粗粒度数据,Incomplete表示对应的不完整粗粒度数据,Ground Truth表示对应的完整细粒度数据,即标签,Ours表示本文提出的模型STDiff。其余表示各个模型输出的数据效果,可见本文提出的模型效果十分卓越,优于其他模型,数据状态与Ground Truth十分接近。

图片

图7   可视化展示

5 结束语

解决城市交通规划中出现的问题,根本在于对城市交通流量进行精确获取、对各路段交通概况进行正确评估。因此,精细、可靠的交通流数据可为决策者提供最有力的帮助。本文提出的基于时空注意力的去噪扩散模型STDiff,在对不完整、粗粒度的城市交通流进行细粒度推断的任务中表现优异。由于去噪扩散模型本身包含加噪和去噪的过程,因此适用于处理带有噪声、不完整、稀疏的数据。实验结果表明,STDiff的推断性能优于现有主要的基线模型。

引用本文

郑雨豪,王森章.基于扩散模型的不完整数据下细粒度城市流量推断[J].智能科学与技术学报,2023,05(03):389-396.ZHENG Yuhao,WANG Senzhang.Fine-grained urban flow inference based on diffusion models with incomplete data[J].Chinese Journal of Intelligent Science and Technology,2023,05(03):389-396.

作者简介

      郑雨豪(2002- ),男,中南大学计算机学院本科生,主要研究方向为深度学习、数据挖掘、生成式模型。 

      王森章(1986- ),男,中南大学计算机学院教授,主要研究方向为时空数据挖掘和城市计算。发表高水平论文100余篇,主持国家级、省部级、企业项目10余项,担任多个国际期刊的审稿人,40余次担任领域内主流国际会议的SPC和PC等。

(点击阅读原文阅读及下载本文)

· 关于《智能科学与技术学报》·

智能科学与技术学报》(季刊,www.cjist.com.cn)是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国自动化学会学术指导,北京信通传媒有限责任公司出版的高端专业期刊,面向国内外公开发行。

《智能科学与技术学报》被中国科技核心、CSCD核心库、Scopus、EBSCO、DOAJ 数据库,乌利希国际期刊指南收录。《智能科学与技术学报》将努力发展成国内外智能科学与技术领域顶级的学术交流平台,为业界提供一批内容新、质量优、信息含量大、应用价值高的优秀文章,促进我国智能科学与技术的快速发展贡献力量。

图片



https://blog.sciencenet.cn/blog-3472670-1424141.html

上一篇:[转载]基于扩散模型数据增广的域泛化方法
下一篇:[转载]融合音画同步的唇形合成研究
收藏 IP: 101.40.169.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-22 15:45

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部