面向季节性时空数据的预测式循环网络及其...

17
43 2020 CHINESEJOURNALOFCOMPUTERS Vol.43No.2 Feb.2020 收稿日期 20190125 在线出版日期 20190927. 本课题得到国家自然科学基金项目 61772299 71690231 61672313 资助 张建晋 硕士研 究生 主要研究方向为机器学习与计算机视觉 .Email swjxzjj gmail.com. 王韫博 通信作者 共同第一作者 ), 博士研究生 主要研究方向为 机器学习与计算机视觉 .Email wangyb15 mails.tsinghua.edu.cn. 龙明盛 博士 副教授 主要研究方向为机器学习与大数据分析 王建民 博士 教授 博士生导师 国家 万人计划 科技创新领军人才入选者 国家杰出青年科学基金入选者 主要研究领域为大数据与知识工程 王海峰 博士 教授级高工 博士生导师 主要研究领域为自然语言处理 机器翻译 人工智能 面向季节性时空数据的预测式循环网络及其 在城市计算中的应用 张建晋 ), ), 王韫博 ), ), 龙明盛 ), ), 王建民 ), ), 王海峰 ), 清华大学软件学院北京 100084 大数据系统软件国家工程实验室北京 100084 清华大学北京信息科学与技术国家研究中心北京 100084 百度公司北京 100085 实际生活中有很多带有季节特征的时空数据 在城市计算领域分布尤广 例如交通流量数据便具有较为 明显的以天或周为周期的统计学特征 如何有效利用这种季节特征 如何捕捉历史观测与待预测数据之间的相关 成为了预测此类时空数据未来变化趋势的关键 传统时序建模方法将时序数据分解为多个信号分量 并使用线 性模型来进行预测 此类方法具有较强的理论基础 但对于数据的平稳性要求过于严格 难以预测趋势信息复杂的 数据 更不适用于高维的时空数据 然而在真实场景下 季节性时空数据的周期长短可变 且不同周期的对应关系 往往并不固定 存在时间 空间上的模式变化与偏移 很难作为理想的周期信号以传统时序方法建模 相比之下 度神经网络建模能力更强 可拟合更为复杂的数据 近几年有许多工作研究了如何利用卷积神经网络和循环神经 网络来处理时空数据 也有一些工作讨论了如何有效利用周期性信息提升预测的准确性 但深度神经网络受困于 梯度消失和误差累积 难以捕捉时序数据中的长时间依赖 且少有方法讨论如何在深度神经网络中有效建模上述 具有弹性周期对应关系的时空信号 本文针对真实场景下季节性时空数据的上述问题 给出具有弹性周期对应关 系的时空数据预测问题的形式化定义 并提出了一种新的季节性时空数据预测模型 该模型包含季节网络 趋势网 时空注意力模块三个部分 可捕捉短期数据中的临近变化趋势和长期数据中隐含的季节性趋势 并广泛考虑历 史周期中的每个时空元素对未来预测值的影响 为了解决深度循环网络难以捕捉时序数据中的长时间依赖的问 本文提出一种新的循环卷积记忆单元 该单元将上述模块融合于一个可端到端训练的神经网络中 一方面实现 了时间和空间信息统一建模 另一方面实现了短期趋势特征与历史周期特征的统一建模 进一步地 为了解决季节 性数据中的各周期时空元素对应关系不固定的问题 本文探讨了多种基于注意力模块的时空数据融合方式 创新 性地提出一种级联式的时空注意力模块 并将其嵌入于上述循环卷积记忆单元内 该模块建模记忆单元的隐藏状 态在不同周期内的弹性时空对应关系 自适应地选取相关度高的季节性特征辅助预测 实验部分 我们选取了两个 时空数据预测在城市计算中最为典型的应用 交通流量预测和气象数据预报 本文所提出的时空周期性循环神经 网络在北京 纽约的交通流量数据集 美国气象数据集上均取得了目前最高的预测准确性 关键词 深度学习 注意力模型 时空预测 城市计算 时空数据 中图法分类号 TP18 犇犗犐 10.11897 SP.J.1016.2020.00286 犘狉犲犱犻犮狋犻狏犲犚犲犮狌狉狉犲狀狋犖犲狋狑狅狉犽狊犳狅狉犛犲犪狊狅狀犪犾犛 犪狋犻狅狋犲犿 狅狉犪犾犇犪狋犪狑犻狋犺 狆狆 犾犻犮犪狋犻狅狀狊狋狅犝狉犫犪狀犆狅犿 狌狋犻狀 ZHANGJianJin ), ), WANGYunBo ), ), LONGMingSheng ), ), WANGJianMin ), ), WANGHaiFeng ), 犛犮犺狅狅犾狅 犛狅 狋狑犪狉犲 犜狊犻狀 犺狌犪犝狀犻狏犲狉狊犻狋 犅犲犻 犻狀 100084 犖犪狋犻狅狀犪犾犈狀 犻狀犲犲狉犻狀 犔犪犫 狅狉犅犻 犇犪狋犪犛狅 狋狑犪狉犲 犅犲犻 犻狀 100084 犅犲犻 犻狀 犖犪狋犻狅狀犪犾犚犲狊犲犪狉犮犺犆犲狀狋犲狉 狅狉犐狀 狅狉犿犪狋犻狅狀犛犮犻犲狀犮犲犪狀犱犜犲犮犺狀狅犾狅 犵狔 犅犖犚犻狊狋 ), 犜狊犻狀 犺狌犪犝狀犻狏犲狉狊犻狋 犅犲犻 犻狀 100084 犅犪犻犱狌犐狀犮 犅犲犻 犻狀 100085 犃犫狊狋狉犪犮狋Therearemanyrealworldspatiotemporaldataformatswithseasonalstatisticalpatterns 《 计 算 机 学 报 》

Upload: others

Post on 25-Dec-2020

25 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 面向季节性时空数据的预测式循环网络及其 在城市计算中的应用cjc.ict.ac.cn/online/onlinepaper/zjj-2020119221328.pdf网络在北京、纽约的交通流量数据集、美国气象数据集上均取得了目前最高的预测准确性.

书书书

第43卷 第2期2020年2月

计  算  机  学  报CHINESEJOURNALOFCOMPUTERS

Vol.43No.2Feb.2020

 

收稿日期:20190125;在线出版日期:20190927.本课题得到国家自然科学基金项目(61772299,71690231,61672313)资助.张建晋,硕士研究生,主要研究方向为机器学习与计算机视觉.Email:swjxzjj@gmail.com.王韫博(通信作者,共同第一作者),博士研究生,主要研究方向为机器学习与计算机视觉.Email:wangyb15@mails.tsinghua.edu.cn.龙明盛,博士,副教授,主要研究方向为机器学习与大数据分析.王建民,博士,教授,博士生导师,国家“万人计划”科技创新领军人才入选者,国家杰出青年科学基金入选者,主要研究领域为大数据与知识工程.王海峰,博士,教授级高工,博士生导师,主要研究领域为自然语言处理、机器翻译、人工智能.

面向季节性时空数据的预测式循环网络及其在城市计算中的应用

张建晋1),2),3) 王韫博1),2),3) 龙明盛1),2),3) 王建民1),2),3) 王海峰2),4)

1)(清华大学软件学院 北京 100084)2)(大数据系统软件国家工程实验室 北京 100084)

3)(清华大学北京信息科学与技术国家研究中心 北京 100084)4)(百度公司 北京 100085)

摘 要 实际生活中有很多带有季节特征的时空数据,在城市计算领域分布尤广,例如交通流量数据便具有较为明显的以天或周为周期的统计学特征.如何有效利用这种季节特征,如何捕捉历史观测与待预测数据之间的相关性,成为了预测此类时空数据未来变化趋势的关键.传统时序建模方法将时序数据分解为多个信号分量,并使用线性模型来进行预测.此类方法具有较强的理论基础,但对于数据的平稳性要求过于严格,难以预测趋势信息复杂的数据,更不适用于高维的时空数据.然而在真实场景下,季节性时空数据的周期长短可变,且不同周期的对应关系往往并不固定,存在时间、空间上的模式变化与偏移,很难作为理想的周期信号以传统时序方法建模.相比之下,深度神经网络建模能力更强,可拟合更为复杂的数据.近几年有许多工作研究了如何利用卷积神经网络和循环神经网络来处理时空数据,也有一些工作讨论了如何有效利用周期性信息提升预测的准确性.但深度神经网络受困于梯度消失和误差累积,难以捕捉时序数据中的长时间依赖,且少有方法讨论如何在深度神经网络中有效建模上述具有弹性周期对应关系的时空信号.本文针对真实场景下季节性时空数据的上述问题,给出具有弹性周期对应关系的时空数据预测问题的形式化定义,并提出了一种新的季节性时空数据预测模型.该模型包含季节网络、趋势网络、时空注意力模块三个部分,可捕捉短期数据中的临近变化趋势和长期数据中隐含的季节性趋势,并广泛考虑历史周期中的每个时空元素对未来预测值的影响.为了解决深度循环网络难以捕捉时序数据中的长时间依赖的问题,本文提出一种新的循环卷积记忆单元,该单元将上述模块融合于一个可端到端训练的神经网络中,一方面实现了时间和空间信息统一建模,另一方面实现了短期趋势特征与历史周期特征的统一建模.进一步地,为了解决季节性数据中的各周期时空元素对应关系不固定的问题,本文探讨了多种基于注意力模块的时空数据融合方式,创新性地提出一种级联式的时空注意力模块,并将其嵌入于上述循环卷积记忆单元内.该模块建模记忆单元的隐藏状态在不同周期内的弹性时空对应关系,自适应地选取相关度高的季节性特征辅助预测.实验部分,我们选取了两个时空数据预测在城市计算中最为典型的应用:交通流量预测和气象数据预报.本文所提出的时空周期性循环神经网络在北京、纽约的交通流量数据集、美国气象数据集上均取得了目前最高的预测准确性.

关键词 深度学习;注意力模型;时空预测;城市计算;时空数据中图法分类号TP18   犇犗犐号10.11897/SP.J.1016.2020.00286

犘狉犲犱犻犮狋犻狏犲犚犲犮狌狉狉犲狀狋犖犲狋狑狅狉犽狊犳狅狉犛犲犪狊狅狀犪犾犛狆犪狋犻狅狋犲犿狆狅狉犪犾犇犪狋犪狑犻狋犺犃狆狆犾犻犮犪狋犻狅狀狊狋狅犝狉犫犪狀犆狅犿狆狌狋犻狀犵

ZHANGJianJin1),2),3) WANGYunBo1),2),3) LONGMingSheng1),2),3)WANGJianMin1),2),3) WANGHaiFeng2),4)

1)(犛犮犺狅狅犾狅犳犛狅犳狋狑犪狉犲,犜狊犻狀犵犺狌犪犝狀犻狏犲狉狊犻狋狔,犅犲犻犼犻狀犵 100084)2)(犖犪狋犻狅狀犪犾犈狀犵犻狀犲犲狉犻狀犵犔犪犫犳狅狉犅犻犵犇犪狋犪犛狅犳狋狑犪狉犲,犅犲犻犼犻狀犵 100084)

3)(犅犲犻犼犻狀犵犖犪狋犻狅狀犪犾犚犲狊犲犪狉犮犺犆犲狀狋犲狉犳狅狉犐狀犳狅狉犿犪狋犻狅狀犛犮犻犲狀犮犲犪狀犱犜犲犮犺狀狅犾狅犵狔(犅犖犚犻狊狋),犜狊犻狀犵犺狌犪犝狀犻狏犲狉狊犻狋狔,犅犲犻犼犻狀犵 100084)4)(犅犪犻犱狌犐狀犮.,犅犲犻犼犻狀犵 100085)

犃犫狊狋狉犪犮狋 Therearemanyrealworldspatiotemporaldataformatswithseasonalstatisticalpatterns,

《 计

算 机

学 报

Page 2: 面向季节性时空数据的预测式循环网络及其 在城市计算中的应用cjc.ict.ac.cn/online/onlinepaper/zjj-2020119221328.pdf网络在北京、纽约的交通流量数据集、美国气象数据集上均取得了目前最高的预测准确性.

whicharewidelydistributedinthefieldofurbancomputing.Forexample,thetrafficflowdatahassignificantperiodicstatisticalcharacteristicswithdaysorweeks.Howtoeffectivelyusethisseasonalfeature,howtocapturethecorrelationbetweenhistoricalobservationsanddatatobepredictedbecomesthekeytopredictingthefuturetrendofsuchspatiotemporaldata.Traditionaltimeseriesmodelingmethodsdecomposetimeseriesdataintomultiplesignalcomponentsanduselinearmodelstomakepredictions.Thesemethodshavestrongtheoreticalbases,buttheyalsohavetoostrictassumptionsonthestationarity,sothattheycanbehardlyusedforsequentialdatawithcomplexvariations,letaloneforthehighdimensionalspatiotemporaldata.However,inrealworldscenarios,theperiodsofseasonalspatiotemporaldataarevariable,andthecorrespondencebetweendifferentperiodsisoftennotfixed.Therearetemporalandspatialchangesandoffsets.Thus,itisdifficulttomodelitasanidealseasonaltimeseriesusingtraditionaltimeseriesmethods.Incontrast,deepneuralnetworksaremorepowerfulandcanfitmorecomplexdata.Inrecentyears,therehavebeenmanypapersstudyinghowtouseconvolutionalneuralnetworksandrecurrentneuralnetworkstoprocessspatiotemporaldata.Someworkhasalsodiscussedhowtoeffectivelyusetheperiodicinformationtoimprovetheaccuracyofprediction.However,deepneuralnetworkscaneasilysufferfromgradientvanishinganderroraccumulation,whichmakesitdifficulttocapturelongtermdependenciesoftimeseriesdata.Moreover,therehavebeenfewmethodsindeepneuralnetworksthatdiscusshowtoeffectivelymodeltheabovementionedspatiotemporalsignalswithelasticperiodiccorrespondence.Inthispaper,basedontheaboveproblemsofseasonalspatiotemporaldatainrealworldscenarios,wegivetheformaldefinitionofspatiotemporaldatapredictionproblemwithelasticperiodcorrespondencesandproposeanewseasonalspatiotemporaldatapredictionmodel.Themodelconsistsofaseasonalnetwork,atrendnetwork,andaspacetimeattentionmodule,whichcancapturetheneartermtrendsinshorttermdataandtheseasonaltrendsimpliedinlongtermdata,andwidelyconsidertheimpactofeachspacetimeelementinthehistoricalcyclestothepredictedfuturedatavalues.Tosolvetheproblemthatthedeeprecurrentneuralnetworksaredifficulttocapturelongtermdependencies,thispaperproposesanewrecurrentconvolutionalmemoryunit,whichcombinestheabovemodulesintoanendtoendtrainableneuralnetwork.Itnotonlymodelsthetemporalandspatialinformationsimultaneouslybutalsotheshorttermtrendsandhistoricalperiodictrends.Furthermore,tosolvetheproblemthatthecorrespondencesbetweenelementsineachcycleoftheseasonaldataarenotstrictlyfixed,thispaperdiscussesavarietyofspacetimedatafusionmethodsbasedondifferentattentionmodules,proposesanewcascadedspacetimeattentionmodule,andintegratesitwithintheaboverecurrentconvolutionmemoryunit.Themodulemodelstheelasticspacetimecorrespondencesofthehiddenstatesindifferentcycles,andadaptivelyselectstheseasonalfeatureswithhighcorrelationstoassistfutureprediction.Intheexperimentalpart,weselecttwotypicalapplicationsofspatiotemporalpredictioninurbancomputing:trafficflowpredictionandmeteorologicaldataforecasting.OurproposedmodelhasachievedthehighestpredictionaccuracyinBeijingandNewYorktrafficflowdatasets,aswellasaUSmeteorologicaldataset.

犓犲狔狑狅狉犱狊 deeplearning;attentionmodel;spatiotemporalprediction;urbancomputing;spatiotemporaldate

1 引 言时空数据预测问题在城市计算中具有尤其重要

的现实意义.其中,交通流量、空气质量、降水云图等时空数据都同时带有明显季节性统计学特征.以交通流量数据为例(如图1所示),城市的交通状况随

着人群的活动表现出较为明显的以天或周为周期的变化规律,人们的出行在工作日的早、晚高峰显著增加,交通拥堵随之出现;而在周末或假期中,全天的交通流量比较平均.基于这种现象,预测未来一段时间内的时空数据可以参考上一周期相近时间段内的历史数据,合理利用数据的季节特性,可以有效提升时空数据的预测准确性.

7822期 张建晋等:面向季节性时空数据的预测式循环网络及其在城市计算中的应用

《 计

算 机

学 报

Page 3: 面向季节性时空数据的预测式循环网络及其 在城市计算中的应用cjc.ict.ac.cn/online/onlinepaper/zjj-2020119221328.pdf网络在北京、纽约的交通流量数据集、美国气象数据集上均取得了目前最高的预测准确性.

图1 左图为北京市某连续三个时刻的交通流量.注意到北京三元桥附近交通流量强度较高(以黄色标识);右图为2014年3月17日北京三元桥附近的平均流量,与前一日、上周的相同时间段的交通流量相关度较高,而又略有差异传统方法利用复杂的物理化学模型来解决上述

问题,需要大量的计算资源,且泛化能力较差[1].近年来,深度神经网络迅速发展,亦被应用于时空预测问题,可以刻画复杂的时空变化趋势,且深度神经网络易于并行,执行效率相对传统模型更高.通常把连续采集的城市计算数据处理为等时间间隔、等空间尺寸的一系列图像,便于深度神经网络求解.然而,虽然深度网络在一般性的时空预测问题上已经取得了显著的效果提升,却很少有工作讨论如何用此类模型解决捕获时空数据中的季节特性.这是因为准确预测季节性时空数据要面临两个难题.其一,目前主流的深度时空预测模型采用卷积网络或循环网络来对时间依赖关系建模,受困于梯度消失(GradientVanishing)和误差累积,难以处理长时间跨度的时空数据,但显著的季节特性往往存在于较长跨度的信号之间.其二,严格的周期信号在季节性时空数据中是很难得到的,例如,尽管交通流量数据因为人群的固有作息规律会呈现出周期性变化,但是这种周期性是一种近似的、弹性的关系,各周期变化趋势和时空对应关系并不固定,存在时间和空间上的模式变化和偏移,并不具有理想状态下的周期信号的特性.传统的季节性预测模型将一维的时序信号分解为趋势分量、季节分量和随机分量.但这种分解已经不适用于高维时空数据.因此,本文的目标是研究一种新模型来学习高维时空数据中隐含的季节依赖关系,自适应地学习历史周期中的合适时间点、合适区域的时空数据模式,使得学到的周期依赖关系在时间维度和空间维度上都更加具有弹性.

本文以城市计算为典型应用,提出时空周期性循环网络(SpatiotemporalPeriodicRecurrentNeuralNetworks,下文称STPRNN).该网络的核心是一种新的循环卷积记忆单元,可以对时间和空间信息统一建模,并同时提取短期临近数据中的趋势特征

和历史周期数据中类似的季节特征.进一步地,本文创新性地在新的循环卷积记忆单元内使用级联式的时空注意力模块,建模记忆单元在不同周期内的隐藏状态在时间维度和空间维度上的弹性对应关系,从而自适应地选取相关度最高的季节性特征辅助预测.在后续实验中,STPRNN模型在两个城市交通流量数据集和一个气候变化数据集上均取得了目前最高的预测准确度.实际上,本文是最早利用可变的季节性信息提升卷积循环神经网络预测能力的工作之一.

2 相关工作21 季节性时序数据的传统预测方法

时空数据作为一种特殊的高维时序数据广泛存在于动作识别、视频描述、城市计算等多个领域.对于一般性的时序数据,传统机器学习方法基于自回归模型或马尔科夫性进行预测[23];对于一般性的时空数据,需将其转化为时间序列.常见的时序预测模型包括移动平均自回归模型(ARMA)及其变种,如差分整合移动平均自回归模型(ARIMA)、带有长时记忆的自回归模型(ARFIMA)、能够处理多变量时序数据的向量自回归模型(VAR)等.

其中被最广泛使用的ARIMA模型首先将非平稳性序列转化为平稳性序列,然后对其趋势分量和随机分量进行估计,其扩展版本SARIMA模型,在捕捉趋势分量和随机分量的基础上,同时建模数据中包含的季节性信息,并依据这三项信息进行预测.然而,上述模型无法有效利用时空数据中的空间相关性,而城市计算中的季节性信号往往在空间上存在着较强关联,同时在不同周期间存在空间对应关系上的程度变化或位置偏移,传统模型不再适用.22 时空数据预测问题中的深度学习技术

近年来,以卷积神经网络(ConvolutionalNeuralNetworks,下文称CNN)和循环神经网络(RecurrentNeuralNetworks,下文称RNN)为代表的深度模型被成功应用于图像识别、自然语言处理、时序数据预测等问题.在时空数据的相关任务上,亦涌现出若干基于上述基本网络结构的深度学习模型.2.2.1 基于循环神经网络的时空数据预测模型

RNN[45]被广泛应用于语音识别、机器翻译[68]

等问题中.RNN中被最常使用的两种结构是长短时记忆单元(LongShortTermMemory,LSTM)[9]和序列到序列模型(SequencetoSequence,Seq2Seq)[10].

882 计  算  机  学  报 2020年

《 计

算 机

学 报

Page 4: 面向季节性时空数据的预测式循环网络及其 在城市计算中的应用cjc.ict.ac.cn/online/onlinepaper/zjj-2020119221328.pdf网络在北京、纽约的交通流量数据集、美国气象数据集上均取得了目前最高的预测准确性.

其中,LSTM将输入序列在时间维的变化趋势以隐藏状态(HiddenState)的形式不断传递和更新[1112],并将历史特征保存在其记忆状态中(CellState),从而克服梯度消失问题.本文所提出的网络节点单元本质上可以看做是LSTM针对季节性时空数据的扩展.Seq2Seq模型由编码器(Encoder)与解码器

(Decoder)构成,编码器用一个RNN将输入映射到隐状态,然后将其传递给解码器,解码器用另一个RNN将其映射为预测结果.基于Seq2Seq模型,Srivastava等人在2015年提出使用RNN来对时空数据进行预测[13].如图2(a)所示,该模型使用多层前馈全连接神经网络将时空数据压缩,并作为Seq2Seq架构的输入,获取输出后,仍然使用多层前馈全连接神经网络将特征还原成时空序列数据.由于LSTM节点内部的门结构较为复杂,因此序列到序列的输入维度不能过高,这就使得数据中相当一部分信息在压缩过程中被丢弃,进而对模型效果造成一定影响.

图2 几种典型的针对时空数据预测问题的深度神经网络架构(由上至下依次为:(a)早期的Seq2Seq架构;(b)基于CNN门结构的PredCNN架构;(c)CNN与RNN级联式架构;(d)CNN与RNN嵌入式架构)

2.2.2 基于卷积神经网络的时空数据预测模型CNN最早由LeCun等人提出[14].得益于近年

来GPU技术的发展和深度网络算法的持续改进,以2012年Krizhevsky等人提出AlexNet[15]为标志(AlexNet提取的深度特征,相比传统图像特征,在ImageNet数据集上将Top5分类错误率从25.8%降低到16.4%),关于CNN的研究与应用飞速发展,并逐渐出现了VGGNET[16]、GoogLeNet[17]、ResNet[18]、DenseNet[19]等更深、更复杂、分类准确性更高的CNN模型.

因CNN易于并行,梯度消失相比RNN更低,故而很多方法[20]利用时间维度上的卷积对时序数据建模.如WaveNet[21]即使用在时间维度上的多层卷积[22]来使得更高的卷积层能够捕获更全局的序列特征.在时空预测任务上,Xu等人基于WaveNet结构,将时间卷积和空间卷积结合,设计了基于级联乘法单元(CascadeMultiplicativeUnit,CMU)的预测式卷积神经网络(PredictiveConvolutionalNeuralNetworks,PredCNN)[23],其结构如图2(b)所示.受制于卷积层的级联架构,PredCNN模型难以捕捉较长时间序列中的偏序依赖关系.此外,为了拉近生成数据和真实图像的分布距离,研究者们在时空数据预测任务中将CNN和生成式对抗网络(GenerativeAdversarialNetwork,GAN)[2425]结合,这类方法[2628]在理论上可以更好地刻画输入数据与输出数据之间的多模态(MultiModal)对应关系,使得生成的图像序列更加逼真.虽然实验证明PredCNN在交通流量预测任务上效果提升明显,而基于对抗网络的CNN模型能在自然图像生成任务上显著提升生成图像的锐利度(尚没有实验结果表明此类模型同样适用于非自然图像,如城市计算中的时空数据),上述两类模型却仍然没有有效利用时空数据中可能存在的季节特征,而是仅仅关注了其中的趋势项,忽略了季节项.2.2.3 CNN和RNN相结合的时空数据预测模型

上文提到,时空数据预测问题的核心难题之一是如何同时捕捉空间区域内各元素强度的相关性和它们各自随时间的演变规律.因此,研究者们提出了多种基于CNN和RNN的级联模型,即通过CNN编码器抽取每一帧的空间特征向量,然后输入到RNN中,进行时序建模,最后使用CNN解码器生成预测帧,其整体架构如图2(c)所示.如Donahue等人在2015提出的LRCN(LongtermRecurrentConvolutionalNetworks)[29]即采用上述方式来对

9822期 张建晋等:面向季节性时空数据的预测式循环网络及其在城市计算中的应用

《 计

算 机

学 报

Page 5: 面向季节性时空数据的预测式循环网络及其 在城市计算中的应用cjc.ict.ac.cn/online/onlinepaper/zjj-2020119221328.pdf网络在北京、纽约的交通流量数据集、美国气象数据集上均取得了目前最高的预测准确性.

时空数据进行处理.Denton等人在2018年也提出了使用类似架构进行时空预测的效果[30],同时使用变分自编码器(VariationalAutoencoder,VAE)[31]在建模数据趋势分量的同时也试图建模随机分量.此类模型的缺点是对于空间信息过于压缩,难以刻画像素级别的时序变化,生成的图像细节损失严重.

那么可否将CNN和RNN的特征深度融合,同时对图像进行空间和时间的建模呢?2015年,Shi等人提出了卷积长短时记忆单元(ConvolutionalLongShortTermMemory,下文称ConvLSTM)[32],将LSTM中的矩阵相乘操作替换为卷积操作,使得记忆单元可以处理更高维度的数据.ConvLSTM以上一时间点输出的隐藏状态犎狋-1以及本节点的输入数据作为输入,输出本节点的隐藏状态犎狋,并将本节点更新的记忆状态犆随时间传递.记忆状态犆的更新操作由三种门结构控制:输入门,将当前结点的输入和上一节点输出的隐藏状态选择性的记录到记忆状态犆中;遗忘门,将记忆状态犆中的信息选择性的遗忘;输出门,控制当前节点隐藏状态犎的输出.基于ConvLSTM的卷积循环网络模型如图2(d)所示.很多时空数据预测模型都以ConvLSTM为基本网络结构[3335]:Kalchbrenner等人在2017年提出的VPN模型(VideoPixelNetwork)[36]对时间维度、空间维度、RGB维度分别用RNN建模其各自元素间的依赖关系;Wang等人在2017年提出的预测式循环神经网络(PredctiveRecurrentNeuralNetworks,PredRNN)[37]构造新的空间记忆状态犕,且犕在循环单元之间纵向传递的同时,也会从本时间点的最高层传递到下一时间点的第一层.这种传递方式能够更有效地抽取时空数据中的空间信息.然而,上述工作一方面仍然受制于LSTM的缺点,难以解决长时间的梯度消失和误差累积,另一方面,依然没有兼顾到长跨度时空数据中的季节性特征.2.2.4 面向季节性时空数据预测的深度神经网络

针对城市交通流量预测问题,Zhang等人在2016年提出了基于CNN的深度时空模型(DeepST)[38],在深度网络的框架下建模季节信息;后又在2017年在该模型中加入残差单元(ResidualUnit)[18]并提出了时空残差网络(STResNet)[39].STResNet架构如图3所示.该模型包含用于

处理较远期数据的趋势信息的Trend网络;用于处理周期性信息的Period网络;用于处理最近期数据趋势信息的Closeness网络.三个网络使用相似的

包含若干个残差单元的卷积网络结构,首先从原始时空数据序列中采集固定时间间隔多帧数据(距离被预测时间点越远的数据使用的时间间隔越大),并将数据在通道维度上连结,分别输入到每个网络中,最终将三个子网络输出结果融合.此外,一些额外因素如节假日、异常天气等会影响人们的出行意愿,导致城市交通流量出现相对异常的数据.该模型使用另一组External网络修正其他三个网络融合的结果.相比于传统机器学习算法,时空残差网络最终在城市交通流量预测问题上取得了较好的效果.但STResNet作为一种卷积模型,存在一定的局限性;首先,该网络仅能预测未来1帧,无法给出长期预测;其次,网络中将初始的时空数据在通道维度上进行连结,导致其失去了时序特征,并使后续的卷积神经网络平等地对待输入中的每一帧数据,影响了最终结果的准确性.

图3 时空残差网络(STResNet)[39]架构同样针对交通流量预测问题,Lv等人提出了查

询式卷积循环网络(LCRNN)[40],将道路拓扑信息的特征表达结合进深度网络中.在历史周期数据的处理上(以天为例),该模型针对每一条道路,学习该道路上过去多天的历史数据的平均值到待预测值的映射.该模型的弊端有二,其一,其所学到的周期模式之间的时空依赖关系不是弹性的;其二,其适用范围被严格限制在了交通预测任务上,且由于严重依赖于道路拓扑,该模型在不同城市之间的迁移能力有待检验.23 小结

相较于传统ARIMA模型,基于CNN和RNN的深度神经网络极大地提升了时空数据预测的准确性,但目前主流方法的缺点是对较长时空序列中隐含的季节特征无法精准把握.与上述方法不同,本文将CNN与RNN的节点单元紧密结合,自适应地建模短期临近数据的趋势特征和不同周期间的季节性特征,并针对不同周期之间数据可能存在的变化,提出了弹性的级联式注意力模型,从历史序列中抽取特征辅助当前序列数据的预测.

092 计  算  机  学  报 2020年

《 计

算 机

学 报

Page 6: 面向季节性时空数据的预测式循环网络及其 在城市计算中的应用cjc.ict.ac.cn/online/onlinepaper/zjj-2020119221328.pdf网络在北京、纽约的交通流量数据集、美国气象数据集上均取得了目前最高的预测准确性.

3 时空周期性预测网络城市计算中的时空数据,以交通流量数据为例,

往往具有两大季节特性,其一,这类数据中存在着多种天然的季节性,如图1,某日某地的平均交通流量与前一日以及上周相同时间段的交通流量相关度较高,这多种季节性的趋势信息可以为未来的预测提供全面的辅助.其二,不同周期间的时空元素并非严格一一对应的,其中普遍存在着以周期为单位的整体趋势变化,或不同周期的各元素在幅值、相位、时间对应关系、空间位置对应关系上的抖动和偏移.基于以上两点,本文需要构建一种模型,可以自适应地提取多时空周期中互补的信息,辅助当前的预测任务.

在这一节中,将首先给出季节性时空预测问题的定义,然后重点介绍本文的核心———带有级联式的时空注意力模块的时空周期性循环网络(SpatiotemporalPeriodicRecurrentNeuralNetworks,下文称STPRNN).为方便叙述,现将本文常用符号总结如表1所示.

表1 本文常用符号及含义符号 含义犡狋,犡^狋 真实序列数据、预测序列数据狋,狋′ 当前数据时刻、历史数据中某时刻犎,犆,犕 季节网络和趋势网络中的隐状态、趋势记忆状

态、季节记忆状态

犎,犕 趋势网络中,经过时空注意力模块处理后的隐状态和季节记忆状态

犻,犵,犳 控制趋势记忆状态的三种门结构犻′,犵′,犳′ 控制季节记忆状态的三种门结构狅 控制双记忆状态融合的输出门

31 季节性时空数据预测问题定义如果某多维时间序列在每个时间点上的多个值

具有一定的空间关系,则该多维时间序列为时空序列,例如视频数据除了不同帧之间存在着时间相关性之外,还在不同像素之间存在着空间相关性.下面给出通用时空数据预测问题的定义.假设正在监控某一动态系统,该动态系统每隔固定的时间会产生犮个测量值,且这些测量值均可以表示为狑×犺大小的图片,最终可生成一张狑×犺×犮的图片.该系统产生的所有测量值定义为犡∈犚狑×犺×犮.设当前时刻为狋,含当前时刻已有过去犑个时刻的测量值犡{狋-犑+1:狋}={犡狋-犑+1,…,犡狋},需要预测未来犓个时间点的测量值犡{狋+1:狋+犓}={犡狋+1,…,犡狋+犓}.则有:

犡^{狋+1:狋+犓}=argmax犡狋+1,…,犡狋+犓狆(犡{狋+1:狋+犓}|犡{狋-犑+1:狋})

=argmax犡狋+1,…,犡狋+犓狆(犡狋+1|犡{狋-犑+1:狋})∏

狀=2狆(犡狋+狀|犡狋+狀-1( ))

(1)当季节信息不显著时,趋势信息即为主导,可根

据序列的马尔科夫性建立生成模型,求解未来犓帧数据相对于过去犑帧数据的条件概率,如图4(a)所示.

图4 季节性时空数据预测问题的建模方法(由上至下分别为:(a)仅建模短期趋势信息(适用于一般性的时空预测);(b)对带有固定周期对应关系的时空预测问题,建模季节信息和短期趋势信息;(c)对带有固定周期对应关系的时空预测问题,同时建模季节信息、短期趋势信息、长期趋势信息;(d)对带有弹性周期对应关系的时空预测问题,建模季节信息和短期趋势信息;(e)对带有弹性周期对应关系的时空预测问题,同时建模季节信息、短期趋势信息、长期趋势信息)

  在此基础上,假设该时空数据具有长度为犜的固定周期,各周期内的时间、空间上的各元素的对应关系固定,且可以获得过去若干周期的历史数据{犡{狋-犿犜+1:狋-犿犜+犓}}犿1:犿2,犿表示距离狋时刻的周期数,且犿∈[犿1,犿2],犿1,犿2均为正整数,则上述公式转化为

1922期 张建晋等:面向季节性时空数据的预测式循环网络及其在城市计算中的应用

《 计

算 机

学 报

Page 7: 面向季节性时空数据的预测式循环网络及其 在城市计算中的应用cjc.ict.ac.cn/online/onlinepaper/zjj-2020119221328.pdf网络在北京、纽约的交通流量数据集、美国气象数据集上均取得了目前最高的预测准确性.

犡^{狋+1:狋+犓}=argmax犡狋+1,…,犡狋+犓狆(犡{狋+1:狋+犓}|XX,犡{狋-犑+1:狋})

=argmax犡狋+1,…,犡狋+(

犓狆(犡狋+1|犡{狋-犑+1:狋},{犡狋-犿犜+1}犿1,犿2)·

 ∏犓

狀=2狆(犡狋+狀|犡狋+狀-1,{犡狋-犿犜+狀}犿1,犿2)),

XX={犡{狋-犿犜+1:狋-犿犜+犓}}犿1:犿2 (2)

图5 (a)为季节网络架构;(b)为以固定的周期对应关系为假设的,不使用时空注意力模块的周期循环网络架构,注意到趋势网络的各节点与季节网络节点一一对应;(c)为本文最终提出的,具有弹性时空注意力机制的周期循环网络STPRNN架构,注意到多个季节网络节点状态对应到同一个趋势网络节点.两种周期网络均可包含一个或多个季节网络(橙色箭头表示网络之间隐状态和记忆状态的传递,黑色箭头表示趋势网络和季节网络内部的信息传递)

式(2)即为带有固定周期对应关系的时空预测问题的基本定义.这类数据中的季节性信息显著强于趋势信息,如图4中(b)、(c)所示,由于以时空数据周期对应关系固定为基本假设,故可以直接使用历史周期中对应时间点的数据辅助预测.对于历史数据有两种不同的处理方法,一种如图4(b)所示,同时建模短期临近数据的变化趋势,以及当前时刻与历史对应时刻的季节依赖关系;另外一种如图4(c)所示,除提取上述两种特征外,同时学习历史周期数据中隐含的趋势信息.临近数据和历史数据均可使用循环网络建模其趋势项.

但考虑到固定的时空周期对应关系在实际应用中难以满足,对式(2)再次扩展,允许不同周期的不同元素在时间、空间上有弹性的对应关系,则有:犡^{狋+1:狋+犓}=argmax犡狋+1,…,犡狋+犓

狆(犡{狋+1:狋+犓}|XX,犡{狋-犑+1:狋})

=argmax犡狋+1,…,犡狋+(

犓狆(犡狋+1|犡{狋-犑+1:狋},XX)·

∏犓

狀=2狆(犡狋+狀|犡狋+狀-1,XX)),

XX={犡{狋-犿犜-犑+1:狋-犿犜+犓}}犿1:犿2 (3)以上即为本文核心———弹性周期时空预测模型

的基本框架.在预测未来某帧时,广泛考虑历史周期中的每个时空元素,由预测算法决定各元素对未来

影响的权重.同上,对于历史周期数据的处理也可根据是否对历史数据中的趋势项建模分为两种具体模型,分别对应图4(d)和图4(e).图4(e)为本文的STPRNN模型的概率图结构.该模型分为三部分:(1)用循环网络提取历史趋势特征;(2)用另一循环网络提取短临趋势特征;(3)学习历史趋势到短临趋势的弹性季节对应关系.下面将从这三个方面讨论STPRNN模型对应的结构,即季节网络、趋势网络、时空注意力模块.三者最终融合在统一的端到端训练的深度网络架构中.32 季节网络

本文将提取历史趋势特征的循环网络命名为季节网络,由堆叠式的STLSTM单元[37]组成.上文中提到,季节性时空数据包含趋势项、季节项、随机项.本文对序列整体趋势项的处理同时考虑短临和长期的趋势信息,季节网络负责对历史周期数据内部的时空依赖关系建模,将提取到的长期的趋势信息以状态张量的形式通过自适应的时空注意力模块输入到对临近序列建模的另一个网络中.STLSTM单元最突出的特点为可以曲折传递

的记忆状态犕,这一结构加深了循环网络深度,从而给模型带来了良好的捕捉短期变化的能力.如图5所示,本文中将沿用此结构,但用犕来指代暂存的季节记忆状态,对单个时间点的多层STLSTM网络而言,季节记忆状态犕逐层更新并传递给后续的趋势网络.与此同时,季节网络单元保留仅沿时间方向传递的记忆状态犆,这种双重记忆机制使得季节网络能够更有效地捕捉历史数据的变化趋势.季节网络的结构如图5(a)所示,第犾层节点单元以观测

292 计  算  机  学  报 2020年

《 计

算 机

学 报

Page 8: 面向季节性时空数据的预测式循环网络及其 在城市计算中的应用cjc.ict.ac.cn/online/onlinepaper/zjj-2020119221328.pdf网络在北京、纽约的交通流量数据集、美国气象数据集上均取得了目前最高的预测准确性.

图像或预测图像犡狋(犾=1)或上一层的隐状态犎犾-1狋

(犾>1)作为外部输入,并包含趋势记忆状态计算、季节记忆状态计算、双重记忆机制融合三部分.其中,趋势记忆状态犆犾狋的更新依赖于输入门犻狋、输入调节门犵狋和遗忘门犳狋,其状态转移方程为

犵狋=tanh(犠狓犵犡狋+犠犺犵犎犾狋-1+犫犵),犻狋=σ(犠狓犻犡狋+犠犺犻犎犾狋-1+犫犻),犳狋=σ(犠狓犳犡狋+犠犺犳犎犾狋-1+犫犳),犆犾狋=犳狋⊙犆犾狋-1+犻狋⊙犵狋,

其中,σ表示Sigmoid激活函数,和⊙分别表示卷积和点乘操作.

季节记忆状态犕犾狋的计算以当前时间点季节网络上一层或上一时间点最后一层的犕犾-1

狋 为输入,并使用额外的一套门结构输入门犻′狋、输入调节门犵′狋、遗忘门犳′狋来控制状态信息的保留和删除,其状态转移方程为

犵′狋=tanh(犠′狓犵犡狋+犠犿犵犕犾-1狋 +犫′犵),犻′狋=σ(犠′狓犻犡狋+犠犿犻犕犾-1狋 +犫′犻),犳′狋=σ(犠′狓犳犡狋+犠犿犳犕犾-1狋 +犫′犳),犕犾狋=犳′狋⊙犕犾-1狋 +犻′狋⊙犵′狋.在更新的隐状态犎犾狋时,首先计算调节趋势记忆

状态和季节记忆状态输出比例的输出门狅狋.时间、季节记忆状态的融合方程为

狅狋=σ(犠狓狅犡狋+犠犺狅犎犾狋-1+犠犮狅犆犾狋+犠犿狅犕犾狋+犫0),

    犎犾狋=狅狋⊙tanh(犠1×1[犆犾狋,犕犾狋]) (4)上述公式中的所有隐状态和记忆状态的张量尺

寸均为犚狑×犺×犮,其中前两维为特征图的长和宽,最后一维为通道数.

此外,为充分利用数据中的周期性,本文提出的STPRNN模型或根据数据特性用多路季节网络抽取多个不同周期(周期尺度或不相同)的历史数据中的季节趋势.33 趋势网络

趋势网络承担着两个作用:其一,捕捉短临数据中的趋势变化;其二,融合季节网络传递来的历史数据特征.在本文早期实验中,尝试过直接将多路季节网络的预测结果输入简单的两层卷积网络做像素空间的融合.遗憾的是,这种在原始数据空间对周期信息的简单融合难以有效利用历史周期中隐含的时空特性,没有取得很好的效果.因此需要一种新的融合方式,在不固定对应关系的若干周期元素间自适应地提取有助于未来趋势预测的信息.基于以上考虑,

在趋势网络中,本文设计了一种专门面向时空季节数据的卷积循环网络单元STPLSTM(SpatiotemporalPeriodicLSTM),在卷积网络的状态空间实现趋势特征与季节特征的深度融合.

首先考虑固定周期对应关系的趋势网络建模方式(其概率模型对应图5),如图5(b)所示.在趋势网络中使用和季节网络相似的循环节点单元,并将趋势网络的隐状态和记忆状态与季节网络对应位置的隐状态和记忆状态直接相加,作为趋势网络每个节点的输入状态.可喜的是,这个模型相较仅采用趋势网络而忽略季节网络已经有了一定程度的预测准备性的提升.但该模型的最大弊端是没有考虑到各个周期的数据变化趋势可能存在一定的不同,即各周期的元素之间并不遵循严格的一一对应关系.

为此,本文在STPLSTM中尝试引入一种分配在各季节网络记忆状态上的在时间、空间维度都更加具有弹性的注意力机制,在预测未来某帧时,尽可能多地参考历史周期序列中的各个元素.图5(c)展示了包含季节网络和基于STPLSTM趋势网络的STPRNN的整体架构,本文通过在趋势网络中嵌入全新的时空注意力模块,实现不固定周期对应关系的时空周期特征的动态自适应融合.趋势网络和季节网络都被融合进一个端到端的训练架构,粗箭头表示网络之间隐状态和记忆状态的传递.这种状态空间上的连接方式使得趋势网络可以从季节网络中学习到历史数据中隐藏的趋势信息.STPLSTM的内部架构如图6所示,所有状态的更新都依赖于趋势状态和季节状态的有效融合.经过STPLSTM中的时空注意力模块处理后,趋势网络的隐状态和季节记忆状态转化为犎犾-1狋 =Att(犡狋1{犾=1},犎犾-1狋 ,{犎犾狋′{狆1}},…),犕犾-1狋 =Att(犕犾-1狋 ,{犕犾狋′{狆1}},…),

其中,Att(·)为时空注意力模块,将在后文中详细阐述.STPLSTM的趋势记忆状态传递方程为犵狋=tanh(犠狓犵犎犾-1狋 +犠犺犵犎犾狋-1+犫犵),犻狋=σ(犠狓犻犎犾-1狋 +犠犺犻犎犾狋-1+犫犻),犳狋=σ(犠狓犳犎犾-1狋 +犠犺犳犎犾狋-1+犫犳),犆犾狋=犳狋⊙犆犾狋-1+犻狋⊙犵狋.

季节记忆状态传递方程为犵′狋=tanh(犠′狓犵犎犾-1狋 +犠犿犵犕犾-1狋 +犫′犵),犻′狋=σ(犠′狓犻犎犾-1狋 +犠犿犻犕犾-1狋 +犫′犻),犳′狋=σ(犠′狓犳犎犾-1狋 +犠犿犳犕犾-1狋 +犫′犳),犕犾狋=犳′狋⊙犕犾-1狋 +犻′狋⊙犵′狋.

3922期 张建晋等:面向季节性时空数据的预测式循环网络及其在城市计算中的应用

《 计

算 机

学 报

Page 9: 面向季节性时空数据的预测式循环网络及其 在城市计算中的应用cjc.ict.ac.cn/online/onlinepaper/zjj-2020119221328.pdf网络在北京、纽约的交通流量数据集、美国气象数据集上均取得了目前最高的预测准确性.

趋势记忆状态与季节记忆状态的融合方程为狅狋=σ(犠狓狅犎犾-1狋 +犠犺狅犎犾狋-1+

犠犮狅犆犾狋+犠犿狅犕犾狋+犫0),   犎犾狋=狅狋⊙tanh(犠1×1[犆犾狋,犕犾狋]) (5)其中,狆1,狆2,…表示季节网络的周期序号.{犎犾狋′{狆1}}和{犕犾狋′{狆1}}表示季节网络狆1从历史数据中抽取的隐状态和季节记忆状态,犾表示层数,狋′表示该节点在季节网络中的时间点,季节网络可能有多个,因此注意力模块允许多个季节网络状态输入.

图6 时空周期性长短时记忆单元(STPLSTM)架构图(灰色区域为级联的时空注意力模块,用于融合多个周期与当前周期的隐记忆状态和季节记忆状态,其中,SATT表示空间注意力模块,TATT表示时间注意力模块)

34 时空注意力模块:时空周期特征的弹性融合如何在记忆状态空间做周期对应关系不固定的

特征融合呢?这里本文讨论三种时空注意力模块,分别是:传统的只对时序信息分配权重的注意力模块;通过将高维特征图延展成二维向量,对时间、空间信息统一分配注意力的混合注意力模块[41];以及本文中新提出的对时间、空间信息分别分配注意力的时空级联式注意力模块.

注意力模型的主要目的在于计算模块的各个输入对于模块输出的贡献度,主要通过计算输入与输出的相似性来实现.注意力模型中将一系列输入称之为值矩阵(Value),输出称之为目标矩阵(Target).由于目标矩阵无法提前得到,因此往往使用与目标矩阵相关的一系列矩阵来替代目标矩阵,与值矩阵计算相似度,并称其为密钥矩阵(Key).下文中将分别用犝狋、{犞狋′}和犝狋表示密钥矩阵、值矩阵和目标矩阵,其中狋表示当前时刻.狋′表示历史数据中的某时刻.

3.4.1 时序注意力模型本文首先讨论仅对时间上的循环网络状态做注

意力分配,其基本思想是:学习输入序列的每一帧对生成序列的某一帧的不同程度的贡献.其经典架构如图7所示,犝狋为Seq2Seq模型中解码器(对应STPRNN的趋势网络)在当前时刻的隐状态.犞狋′为Seq2Seq模型中编码器(对应STPRNN的季节网络)的隐状态.α狋′为各个隐状态犞狋′到当前目标矩阵犝狋的可学习的权重,与解码器本时间点的隐状态犝狋相关.

图7 传统时序注意力模型

对于趋势网络中第犾层STPLSTM而言,在狋时刻,值矩阵{犞狋′}即为季节网络第犾层隐状态{犎犾狋′{狆}}和季节记忆状态{犕犾狋′{狆}}(狆表示季节网络的序号).密钥矩阵犝狋使用趋势网络上一节点(上一层或上一个时间点最后一层)的隐状态犎犾-1狋 和季节记忆状态犕犾-1

狋 .目标矩阵犝狋即为趋势网络的STPLSTM节点注意力模块的输出隐状态犎犾-1狋 和季节记忆状态犕犾-1狋 .目标矩阵犝狋在狋时刻的计算公式如下:α狋′=Softmax({tanh(犠狏犞狋′+犠狊犝狋+犫)}狋′)犝狋=Att(犝狋,{犞狋′})=∑狋′(犞狋′⊙α狋′) (6)

3.4.2 混合式时空注意力模块进一步地,本文尝试在时空周期预测网络中引入

混合式的时空注意力模块.以NonLocalBlock[41]为代表的混合式时空注意力模块典型结构如图8所示,其基本思想是将时间与空间同等对待,首先将密钥矩阵犝和值矩阵{犞}均展开成二维矩阵形式,即在值矩阵中时间、长和宽三维同等对待,组合到一维中.令展开后的密矩阵犝和值矩阵{犞}每一维分别为犝犻和犞犼.其后通过内积的方式分别计算每个犝犻与所有的犞犼相似度,并使用Softmax计算对应某个犝犻的每个犞犼的权重.具体公式如下:

犝f狋=flat(犝狋),犞f狋′=flat({犞狋′}),犲狋狋′=犝f

狋×犞f狋′,

α狋狋′=Softmax({犲狋狋′}狋′),

492 计  算  机  学  报 2020年

《 计

算 机

学 报

Page 10: 面向季节性时空数据的预测式循环网络及其 在城市计算中的应用cjc.ict.ac.cn/online/onlinepaper/zjj-2020119221328.pdf网络在北京、纽约的交通流量数据集、美国气象数据集上均取得了目前最高的预测准确性.

犝狋=Att(犝狋,{犞狋′})=∑狋′(犞狋′⊙α狋狋′)(7)上式的输出作为式(5)中的犎犾-1狋 和犕犾-1狋 输

入到STPRNN趋势网络的对应节点中.然而,混合式的时空注意力模块直接将所有维度组合到同一维度,可能造成时空信息的混杂和丢失.实际上,时间和空间是有较大的差异性的,混合注意力模型对这一问题的处理过于直接,展平后的矩阵计算也会使计算量大大增加,一定程度上限制了可以处理的数据维度.

图8 混合式时空注意力模型

3.4.3 级联式时空注意力模块基于以上考虑,本文所提出的级联式时空注意

力模块分为空间注意力模块和时间注意力模块,分别计算时间上与空间上的季节网络各个记忆状态和趋势网络记忆状态的相似度,如图9所示.

图9 级联式时空注意力模型在STPRNN模型中,密钥矩阵犝为犎犾-1

狋 或犕犾-1狋 ;值矩阵{犞狋′}为{犎犾狋′{狆}}或{犕犾狋′{狆}}.隐状态犎和季节记忆状态犕将分别使用架构相同但参数独立的注意力模块进行计算.计算所得的目标矩阵,作为式(5)中的犎犾-1狋 和犕犾-1狋 输入到趋势网络的对应节点中.级联式时空注意力模块的具体计算公式如下:{α狊犻狋′}犻=SpaceAtt(犝狋,犞狋′)=Softmax({犲狊犻狋′}犻)

=Softmax(Conv1×1([犝狋,犞狋′])),{α狋狋′}狋′=TimeAtt(犝狋,{犞狋′⊙{α犻狋′}犻}狋′)

=Softmax({犲狋狋′}狋′),犲狋狋′=tanh(flat([犝狋,犞狋′⊙{α犻狋′}犻])犠+犫)犝狋=Attention(犝狋,{犞狋′})=∑狋′(犞狋′⊙{α狊犻狋′}犻⊙α狋狋′)(8)

在具体实现上,本文依照上述公式首先将值密钥犝狋拆分为1×1×犮的矩阵,并与值矩阵{犞狋′}对应

位置上的1×1×犮的矩阵计算相似度,最终取得犺×狑个相似度值,使用Softmax函数计算每个位置的权重α狊犻狋′.上述机制即为空间注意力机制.在取得空间权重犲狊犻狋′后将其与值矩阵犞狋相乘,并与密钥矩阵犝狋整体计算相似度,计算出所有值矩阵{犞狋′}的相似度之后,使用Softmax计算出每个值矩阵{犞狋′}的权重,即为时间权重α狋′.上述机制即为时间注意力机制,当模型具有多个季节网络时,所有季节网络的特征都会参与到时间注意力机制中的Softmax计算中.最终对于时间狋′的某一个值矩阵{犞狋′}的每一个位置上,具有空间权重α狊犻狋′和时间权重α狋狋′两个权重.每个值矩阵{犞狋′}与对应权重相乘后相加,即可取得目标矩阵.3.4.4 小结

对于带有季节特征的时空数据,传统的时序注意力模型不能处理空间信息;混合式的时空注意力模型由于时空信息的混杂会造成预测结果的下降和计算量的增加;级联式的时空注意力模型将时间信息和空间信息分开处理,能够更完整地捕捉不同周期的数据在时间与空间维度上的相关性.

4 实验结果与分析本节中将首先介绍两个城市计算数据集和一个

气候数据集、实验细节和对比方法,然后将从准确性指标和生成图像的质量上分析STPRNN模型的预测结果.41 实验环境和数据集

数据集.本文选用两个城市计算中常用的以小时为单位的交通流量数据集TaxiBJ和BikeNYC,以及一个以天为单位气候变化数据集GHCND(GlobalHistoricalClimatologyNetworkDaily)[42].

TaxiBJ数据集包括北京市交通流量的数据,由GPS监视器以30min为间隔连续采集,以热点图形式呈现为32×32×2的双通道热度图,其两个通道分别表示某区域该时刻交通流量的流入、流出.本文采用DeepST论文中的训练、测试数据划分方法[38].注意到,在数据输入前,首先将其归一化到[0,1]区间内.

BikeNYC数据集包括纽约市的自行车运动轨迹,其采集时间间隔为1h,每一帧为16×8×2的热度图.使用数据集后10天的数据作为测试数据,其余为训练数据.

GHCND数据集包含全球近二百年来所有气象检测站每天汇报的最高气温、最低气温、相对湿度

5922期 张建晋等:面向季节性时空数据的预测式循环网络及其在城市计算中的应用

《 计

算 机

学 报

Page 11: 面向季节性时空数据的预测式循环网络及其 在城市计算中的应用cjc.ict.ac.cn/online/onlinepaper/zjj-2020119221328.pdf网络在北京、纽约的交通流量数据集、美国气象数据集上均取得了目前最高的预测准确性.

等气象信息.由于该数据在空间上较为稀疏,因此本实验中使用美国本土地区1836~2017年每日的最高气温数据,并以1980年为界限划分训练集与测试集.将每一天的数据归一化为64×64大小的像素强度在[0,1]区间内的连续值图像.

三个数据集规模如表2所示.表2 数据集的规模

数据集 TaxiBJ BikeNYC GHCND维度 32×32×2 16×8×2 64×64×1训练集 15291 3544 8075测试集 1344 672 2670

在本文实验中,将趋势网络和季节网络同时在一个端到端的架构中进行训练.特别说明的是,为了减少TaxiBJ数据集的训练时间和内存占用,实验中将每个32×32×2的图像转换成16×16×8的张量.STPRNN中每一个隐状态和记忆状态的维度均为64.本文中所有模型均以待预测数据和网络输出的犔2损失函数为训练目标,并使用初始学习率为0.001的Adam优化器[43]进行优化.在TaxiBJ和BikeNYC数据集上均训练30000次迭代.每当训练集遍历过一遍后会将样本顺序打乱并重新开始读取.每次迭代的批大小为8.所有的实验均使用TensorFlow实现.42 对比算法

ConvLSTM[32]将传统LSTM中的矩阵相乘操作替换成卷积操作,实现了时空统一建模,为本文的时空预测方法提供了基础结构.FRNN[44]同样基于卷积循环网络,在2018年

由Oliu等人提出,在MovingMNIST这一人工构造的数据集上取得了当前最优的预测准确率.

DeepST[38]最早的针对交通流量预测问题设计的深度网络模型之一.它完全基于CNN,在每一个时刻,使用前4帧预测未来1帧,滚动预测.STResNet[39]是DeepST的改进版本,相比

DeepST,在TaxiBJ和BikeNYC数据集上对预测准确性的提升效果显著,是本文主要对比的方法.

VPN[36]在人工构造的数据集与环境相对可控的机械臂数据集上取得了当前最优的预测效果.PredRNN[37]是本文的季节网络和趋势网络的

基础模型.本文对比该模型证明在交通流量预测问题上有效利用时空季节信息的必要性.PredRNNENSEMBLE使用1×1卷积将两个

PredRNN的输出进行融合.上文中提到,STPRNN

对于周期性信息的使用方式是一种深度融合的方式,为了证明这种融合方式的必要性.

传统的时序预测算法包括ARIMA、SARIMA及VAR模型,这些模型在传统时间序列预测任务上效果较好,本文也将这些算法纳入对比实验中.43 算法性能对比实验4.3.1 TaxiBJ数据集实验结果

与DeepST、STResNet等方法不同,本文方法更加关注未来多帧的预测.每一个序列包含两个分序列:用于趋势网络的6个连续帧(3帧输入,3帧输出);用于季节网络的6个连续帧,且这6帧为趋势网络输入序列的一周之前的数据.

实验结果如图10所示,STPRNN未来3帧的犚犕犛犈均为所有对比模型中最低,更低的犚犕犛犈指标表示更精确的预测效果.注意到STResNet模型在多帧预测问题上,需要使用上一时刻预测的结果作为新的输入进行滚动预测,而在网络内部没有记忆单元存储时序信息,因此后两帧的预测结果较差.

图10 TaxiBJ测试集上逐帧犚犕犛犈结果折线图

图11展示了随机采样的一条时空预测样例的入流量热度图.为了方便对比各算法的预测结果,本文将待预测图像与网络输出的差值可视化,黄色区域差值较高,代表预测误差较大,蓝色区域差值较低,代表预测较为准确.明显地,ConvLSTM模型和FRNN模型对于图像右上角区域的预测结果较差,且在其他区域也有较多差异较高的区域出现;PredRNN模型对于图像的中心区域的预测出现了较大误差;而本文提出的STPRNN模型的预测结果相对更为准确,尤其对于较难预测的图像中心区域和右上区域均有较明显的提升.不难看出,使用TrendNet捕捉历史数据中的周期性预测信息可以辅助模型对临近趋势做出准确预测.

692 计  算  机  学  报 2020年

《 计

算 机

学 报

Page 12: 面向季节性时空数据的预测式循环网络及其 在城市计算中的应用cjc.ict.ac.cn/online/onlinepaper/zjj-2020119221328.pdf网络在北京、纽约的交通流量数据集、美国气象数据集上均取得了目前最高的预测准确性.

图11 TaxiBJ测试集中预测结果实例(其中差值表示预测结果与相应时间点的真实值的差的绝对值)

由于STPRNN实际上处理了更长的序列,因此训练用时会稍有增加,但这并未增加过多的测试用时,如表3所示,对已训练完备的模型的执行效率影响不大.注意到,由于季节网络和趋势网络共享参数,因此STPRNN实际上仅仅比PredRNN[32]模型仅多出了时空注意力模块的参数(只占总参数量的约10%).本文强调,一方面,在实际训练时,两个模型所占用的内存差异不大(内存差异是十分重要的,决定着可处理的最大分辨率);另一方面,参数量的增加并非预测准确性提升的主要原因.同样的,

表3 犛犜犘犚犖犖与犘狉犲犱犚犖犖训练与测试效率对比模型 参数量 内存占用/MB运行时间/(s/batch)

PredRNN(训练)1.536×106 4455 0.87STPRNN(训练)1.693×106 5020 3.11PredRNN(测试)1.536×106 725 0.48STPRNN(测试)1.693×106 735 0.73

从表3中可以看出,由于免去了梯度计算等操作,STPRNN模型在测试所需的运行时间与PredRNN模型差异不大,这就意味着STPRNN模型不会对实用时的效率造成过多的影响.

对比实验1.深度融合方法的有效性.为了证明本文提出的深度融合方法的有效性,本文额外设计了一组对照实验,使用两个卷积层融合季节网络和趋势网络的每个时间点的输出.结果如图10中黄线(PredRNNENSEMBLE)所示.该模型相较PredRNN在临近的未来时间点上表现出了预测准确性上的提升,但是其预测能力仍弱于最终的STPRNN模型,说明了在不同网络层级上深度融合时空特征是很有必要的.

对比实验2.时间注意力与空间注意力双模块的有效性.为了验证模型中时间注意力与空间注意力双模块的有效性,本文设计了另一组对照实验,如表4所示,具体比较:(1)在本文所提出的STPLSTM中固定周期对应关系,不使用注意力模块,历史数据所产生的犎/犕直接与当前对应时间节点的犎/犕相加,作为下一节点的输入;(2)仅仅使用时间或空间注意力模块;(3)使用混合时空注意力模块[41];(4)使用本文所提出的时空级联注意力模块.在表4的结果中可以看出采用时空级联双注意力模块可以明显提升预测的准确率.时间注意力模块和空间注意力模块实际上增加了网络的参数量,错误的连接方式反而会造成网络难以训练,因此在表4的结果中,混合注意力模块的结果反而不如无注意力模块,这也侧面印证了级联注意力模块的重要性.表4 对比实验2:不同的注意力模块对预测结果的

影响(评测指标:犕犛犈)模型 第1帧 第2帧 第3帧

STPRNN(无注意力模块) 15.20 17.80 19.55STPRNN(时间注意力) 15.07 17.48 19.19STPRNN(空间注意力) 16.03 17.49 19.32STPRNN(混合注意力) 16.25 17.97 19.83犛犜犘犚犖犖(级联注意力) 1503 1743 1917

对比实验3.使用循环网络建模历史数据趋势信息的有效性、对多周期特征在记忆状态空间做特征融合的有效性.在本文的早期实验中,考虑过直接将历史数据输入到趋势网络中,不经过季节网络处理,如图2中(b)和(d)所示.实验包括使用时空注意

7922期 张建晋等:面向季节性时空数据的预测式循环网络及其在城市计算中的应用

《 计

算 机

学 报

Page 13: 面向季节性时空数据的预测式循环网络及其 在城市计算中的应用cjc.ict.ac.cn/online/onlinepaper/zjj-2020119221328.pdf网络在北京、纽约的交通流量数据集、美国气象数据集上均取得了目前最高的预测准确性.

力模块和不使用注意力模块两类.在不使用注意力模块时,直接将历史数据中对应时间的图像与当前图像在通道维度连结;使用时空注意力模块时则需要将所有历史图像输入注意力模块,并将结果与当前图像连结.实验结果如表5所示.可以发现此种方法与基础模型PredRNN实验结果相近,这说明了使用循环网络建模季节性历史数据中的趋势信息,并在具有时空依赖关系的记忆状态空间做周期趋势特征融合的重要性.表5 对比实验3:使用循环网络建模历史数据趋势信息的有

效性与对多周期特征融合的有效性(评测指标:犕犛犈)模型 第1帧 第2帧 第3帧

PredRNN 16.04 19.23 20.14STPRNN(图2(b))(无季节,无注意力) 16.09 19.25 20.09STPRNN(图2(d))(无季节,有注意力) 16.05 19.21 19.64

犛犜犘犚犖犖 1503 1743 1917

对比实验4.季节网络的输入数据的时间跨度对于模型效果的影响.上文中提到,STPRNN模型需要额外输入一定时间跨度的历史数据以捕捉时空序列数据中的周期性特征.当时间跨度为0时,STPRNN模型退化为PredRNN模型.为了验证所使用的历史数据的时间跨度对于模型效果的影响,本文依次将历史数据的时间跨度设置为2、5、6、10.从表6的实验结果可见,在时间跨度较小时,模型不能从历史数据中捕捉到足够的季节性特征用于辅助预测.当时间跨度过长时,会造成模型效率降低,难以收敛.经过若干次实验,本文选择6作为季节网络默认的输入数据时间跨度.表6 对比实验4:犛犜犘犚犖犖季节网络不同的输入数据时间

跨度对预测结果的影响(评测指标:犕犛犈)季节网络时间跨度 第1帧 第2帧 第3帧

2 16.52 18.77 20.025 16.06 19.06 19.916 1503 1743 191710 15.47 18.64 19.23

对比实验5.单帧预测效果对比.由于大部分已有方法(包括传统模型以及STResNet模型)在其原始实验中均只考虑未来1帧的预测结果,因此本文也同样使用STPRNN模型进行单帧预测,并与已有方法对比.与前文实验不同,此处仅使用未来1帧作为表7中所有方法的训练目标,其中,STPRNN相比其他模型单帧预测误差更低.

表7 在犜犪狓犻犅犑数据集上仅预测未来1帧的犚犕犛犈结果比较(所有的模型都以预测未来1帧为目标进行训练)模型 犚犕犛犈 模型 犚犕犛犈ARIMA 22.78 VPN 16.75SARIMA 26.88 FRNN 19.21VAR 22.88 PredRNN 15.63DeepST 18.18 PredRNNENSEMBLE 15.54STResNet 16.59 犛犜犘犚犖犖 1519ConvLSTM 19.98

4.3.2 BikeNYC数据集实验结果在BikeNYC数据集上的实验设置与TaxiBJ数

据集相似,仍然使用序列中的3帧作为趋势网络的输入,3帧作为趋势网络的预测,取一周前的连续6帧数据作为季节网络的输入.该数据集上未来3帧的预测结果如图12所示.从数值结果上看,STPRNN将犚犕犛犈指标降低了0.3,取得了比其他模型更好的预测效果.

图12 BikeNYC测试集上逐帧犚犕犛犈结果折线图

除犚犕犛犈指标之外,本文使用气象预报中常用的CSI指数(CriticalSuccessIndex)对预测结果进行评测.与召回率(狉犲犮犪犾犾)及精确率(狆狉犲犮犻狊犻狅狀)类似,CSI的计算首先需要选择一个阈值狇,此处,本文分别以像素强度10、30和50为该阈值(像素强度范围为0~255).本文定义:犜犘:事件真实发生且预测成功的频次,即在真

实图像与预测图像中均大于狇的像素数.犉犖:事件真实发生但未预测成功的频次,即在

真实图像中大于狇且在预测图像中小于狇的像素数.犉犘:事件未发生但预测发生的频次,即在真实

图像中小于狇且在预测图像中大于狇的像素数.犜犖:事件未发生且未预测发生的频次,即在真

实图像与预测图像中均小于狇的像素数.继而定义CSI= 犜犘

犜犘+犉犖+犉犘.注意到交通流

892 计  算  机  学  报 2020年

《 计

算 机

学 报

Page 14: 面向季节性时空数据的预测式循环网络及其 在城市计算中的应用cjc.ict.ac.cn/online/onlinepaper/zjj-2020119221328.pdf网络在北京、纽约的交通流量数据集、美国气象数据集上均取得了目前最高的预测准确性.

量数据包括入流量和出流量两个通道,计算CSI时需要分别统计两通道的犜犘、犉犘、犜犖和犉犖之和.

表8展示了未来3帧的平均CSI:STPRNN模型在CSI数值上相比于其他模型有2%~7%的提升.每一帧CSI以折线图的形式在图13中给出.由于交通流量预测中更注重对于高密度区域的预测(即强调犜犘),同时尽量减少未命中(犉犖)和误报

(犉犘)的数量,而低密度区域(犜犖)的预测作用较小,因此CSI的提升在实际应用中具有更重要的意义.表8 在犅犻犽犲犖犢犆数据集上预测3帧的犆犛犐结果比较模型 CSI10 CSI30 CSI50FRNN 0.91 0.74 0.39PredRNN 0.92 0.73 0.30犛犜犘犚犖犖 094 080 054

图13 BikeNYC测试集上CSI结果

单帧预测效果对比.同上,由于大部分已有方法(包括传统模型以及STResNet模型)在其原始实验中均只考虑未来1帧的预测结果,因此本文也同样使用STPRNN模型进行单帧预测,并与已有方法对比.实验结果如表9所示,STPRNN模型的单帧预测误差最小.表9 在犅犻犽犲犖犢犆数据集上预测1帧的犚犕犛犈结果比较

(所有的模型都以预测1帧为目标进行训练)模型 犚犕犛犈 模型 犚犕犛犈ARIMA 10.07 ConvLSTM 7.11SARIMA 10.56 VPN 6.17VAR 9.92 FRNN 5.99DeepST 7.43 PredRNN 6.02STResNet 6.37 犛犜犘犚犖犖 577

4.3.3 GHCND数据集实验结果GHCND数据集获取自美国国家海洋和大气管

理局,每日的最高气温会呈现以年为周期的季节性.因此本文使用待预测数据过去一年相近时间段的历史数据作为历史周期数据,具体来说,本文使用滑动窗口截取序列,每个序列包括8个连续帧(4帧输入,4帧输出),并使用一年前相同日期及其邻近8天的历史数据作为季节网络的输入.实验结果如表10表10 犌犎犆犖犇数据集上预测4帧的犚犕犛犈结果比较模型 第1帧 第2帧 第3帧 第4帧FRNN 1.77 2.08 2.26 2.38PredRNN 1.50 1.79 1.96 2.05犛犜犘犚犖犖 145 177 192 200

所示,STPRNN模型将犚犕犛犈指标降低了0.05左右,取得了比其他模型更好的预测效果.

5 总结及未来研究方向本文提出了一种针对季节性时空数据建模的预

测式深度神经网络模型,称为时空周期性循环神经网络(STPRNN).该模型有两个特色,其一,其核心为周期性长短时记忆单元(STPLSTM),支持趋势网络(建模短临趋势项)和季节网络(建模长期季节项)在STPRNN记忆状态空间上的深度融合.其二,本文创新性地在STPRNN框架下讨论了三种注意力模块,最终设计了时间、空间级联式的注意力模块,使得模型能够自动从历史时空数据中寻找最相似的季节趋势,从而能够更加弹性地融合短临趋势特征和长期季节特征.

本文证明以上方法在两个标准交通流量数据集和一个气候变化数据集上取得了当前最高的预测准确率,在城市计算中有很大的应用前景.此外,本文所提出的多路循环处理模型以及级联式的注意力模块经过一些针对性的改进,为解决其他带有季节特征的多变量时序数据(MultivariateTimeSeries)的预测问题提供了思路.致 谢 感谢国家自然科学基金项目(61772299,71690231,61672313)的支持.感谢《计算机学报》编辑部和评审专家的宝贵意见!

9922期 张建晋等:面向季节性时空数据的预测式循环网络及其在城市计算中的应用

《 计

算 机

学 报

Page 15: 面向季节性时空数据的预测式循环网络及其 在城市计算中的应用cjc.ict.ac.cn/online/onlinepaper/zjj-2020119221328.pdf网络在北京、纽约的交通流量数据集、美国气象数据集上均取得了目前最高的预测准确性.

参考文献

[1]WangZiFa,WuQiZhong,GbaguidiA,etal.EnsembleairqualitymultimodelforecastsystemforBeijing(EMSBeijing):Modeldescriptionandpreliminaryapplication.JournalofNanjingUniversityofInformationScienceandTechnology(NaturalScienceEdition),2009,1(1):1926(inChinese)(王自发,吴其重,GbaguidiA等.北京空气质量多模式集成预报系统的建立及初步应用.南京信息工程大学学报:自然科学版,2009,1(1):1926)

[2]FanZ,SongX,ShibasakiR,etal.CityMomentum:Anonlineapproachforcrowdbehaviorpredictionatacitywidelevel//Proceedingsofthe2015ACMInternationalJointConferenceonPervasiveandUbiquitousComputing.NewYork,USA,2015:559569

[3]HoangMX,ZhengY,SinghAK.FCCF:Forecastingcitywidecrowdflowsbasedonbigdata//Proceedingsofthe24thACMSIGSPATIALInternationalConferenceonAdvancesinGeographicInformationSystems.NewYork,USA,2016:ArticleNo.6

[4]HopfieldJJ.Neuralnetworksandphysicalsystemswithemergentcollectivecomputationalabilities.ProceedingsoftheNationalAcademyofSciences,1982,79(8):25542558

[5]RobinsonT,FallsideF.Arecurrenterrorpropagationnetworkspeechrecognitionsystem.ComputerSpeech&Language,1991,5(3):259274

[6]ChoK,VanMerrinboerB,BahdanauD,etal.Onthepropertiesofneuralmachinetranslation:Encoderdecoderapproaches.arXivpreprintarXiv:1409.1259,2014

[7]ChoK,VanMerrienboerB,GulcehreC,etal.LearningphraserepresentationsusingRNNencoderdecoderforstatisticalmachinetranslation//ProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Doha,Qatar,2014:17241734

[8]BahdanauD,ChoK,BengioY.Neuralmachinetranslationbyjointlylearningtoalignandtranslate.arXivpreprintarXiv:1409.0473,2014

[9]HochreiterS,SchmidhuberJ.Longshorttermmemory.NeuralComputation,1997,9(8):17351780

[10]SutskeverI,VinyalsO,LeQV.Sequencetosequencelearningwithneuralnetworks//ProceedingsoftheAdvancesinNeuralInformationProcessingSystems.Montréal,Canada,2014:31043112

[11]WerbosPJ.Generalizationofbackpropagationwithapplicationtoarecurrentgasmarketmodel.NeuralNetworks,1988,1(4):339356

[12]WilliamsRJ,ZipserD.Gradientbasedlearningalgorithmsforrecurrentnetworksandtheircomputationalcomplexity//ChauvinY,RumelhartDEeds.BackPropagation:Theory,ArchitecturesandApplications.Hillsdale,N.J.:LawrenceErlbaumPublishers,1995:433486

[13]SrivastavaN,MansimovE,SalakhudinovR.UnsupervisedlearningofvideorepresentationsusingLSTMs//ProceedingsoftheInternationalConferenceonMachineLearning.Lille,France,2015:843852

[14]LeCunY,BoserB,DenkerJS,etal.Backpropagationappliedtohandwrittenzipcoderecognition.NeuralComputation,1989,1(4):541551

[15]KrizhevskyA,SutskeverI,HintonGE.ImageNetclassificationwithdeepconvolutionalneuralnetworks//ProceedingsoftheAdvancesinNeuralInformationProcessingSystems.LakeTahoe,USA,2012:10971105

[16]SimonyanK,ZissermanA.Verydeepconvolutionalnetworksforlargescaleimagerecognition.arXivpreprintarXiv:1409.1556,2014

[17]SzegedyC,LiuW,JiaY,etal.Goingdeeperwithconvolutions//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.Boston,USA,2015:19

[18]HeK,ZhangX,RenS,etal.Deepresiduallearningforimagerecognition//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.LasVegas,USA,2016:770778

[19]HuangG,LiuZ,VanderMaatenL,etal.Denselyconnectedconvolutionalnetworks//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.Hawaii,USA,2017:47004708

[20]VandenOordA,KalchbrennerN,EspeholtL,etal.ConditionalimagegenerationwithPixelCNNdecoders//ProceedingsoftheAdvancesinNeuralInformationProcessingSystems.Barcelona,Spain,2016:47904798

[21]VandenOordA,DielemanS,ZenH,etal.WaveNet:Agenerativemodelforrawaudio.arXivpreprintarXiv:1609.03499,2016

[22]YuF,KoltunV.Multiscalecontextaggregationbydilatedconvolutions.arXivpreprintarXiv:1511.07122,2015

[23]XuZ,WangY,LongM,etal.PredCNN:Predictivelearningwithcascadeconvolutions//ProceedingsoftheInternationalJointConferenceonArtificialIntelligence.Stockholm,Sweden,2018:29402947

[24]DentonEL,ChintalaS,FergusR.DeepgenerativeimagemodelsusingaLaplacianpyramidofadversarialnetworks//ProceedingsoftheAdvancesinNeuralInformationProcessingSystems.Montréal,Canada,2015:14861494

[25]GoodfellowI,PougetAbadieJ,MirzaM,etal.Generativeadversarialnets//ProceedingsoftheAdvancesinNeuralInformationProcessingSystems.Montréal,Canada,2014:26722680

[26]MathieuM,CouprieC,LeCunY.Deepmultiscalevideopredictionbeyondmeansquareerror.arXivpreprintarXiv:1511.05440,2015

[27]VondrickC,PirsiavashH,TorralbaA.Generatingvideoswithscenedynamics//ProceedingsoftheAdvancesinNeuralInformationProcessingSystems.Barcelona,Spain,2016:613621

003 计  算  机  学  报 2020年

《 计

算 机

学 报

Page 16: 面向季节性时空数据的预测式循环网络及其 在城市计算中的应用cjc.ict.ac.cn/online/onlinepaper/zjj-2020119221328.pdf网络在北京、纽约的交通流量数据集、美国气象数据集上均取得了目前最高的预测准确性.

[28]TulyakovS,LiuMY,YangX,etal.MoCoGAN:Decomposingmotionandcontentforvideogeneration//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.SaltLakeCity,USA,2018:15261535

[29]DonahueJ,AnneHendricksL,GuadarramaS,etal.Longtermrecurrentconvolutionalnetworksforvisualrecognitionanddescription//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.Boston,USA,2015:26252634

[30]DentonE,FergusR.Stochasticvideogenerationwithalearnedprior//Proceedingsofthe35thInternationalConferenceonMachineLearning.Vancouver,Canada,2018:11741183

[31]KingmaDP,WellingM.AutoencodingvariationalBayes.arXivpreprintarXiv:1312.6114,2013

[32]ShiX,ChenZ,WangH,etal.ConvolutionalLSTMnetwork:Amachinelearningapproachforprecipitationnowcasting//ProceedingsoftheAdvancesinNeuralInformationProcessingSystems.Montréal,Canada,2015:802810

[33]FinnC,GoodfellowI,LevineS.Unsupervisedlearningforphysicalinteractionthroughvideoprediction//ProceedingsoftheAdvancesinNeuralInformationProcessingSystems.Barcelona,Spain,2016:6472

[34]PatrauceanV,HandaA,CipollaR.Spatiotemporalvideoautoencoderwithdifferentiablememory.arXivpreprintarXiv:1511.06309,2015

[35]OhJ,GuoX,LeeH,etal.ActionconditionalvideopredictionusingdeepnetworksinAtarigames//ProceedingsoftheAdvancesinNeuralInformationProcessingSystems.Montréal,Canada,2015:28632871

[36]KalchbrennerN,VandenOordA,SimonyanK,etal.Videopixelnetworks//Proceedingsofthe34thInternationalConferenceonMachineLearning.Sydney,Australia,2017:

17711779[37]WangY,LongM,WangJ,etal.PredRNN:Recurrent

neuralnetworksforpredictivelearningusingspatiotemporalLSTMs//ProceedingsoftheAdvancesinNeuralInformationProcessingSystems.LongBeach,USA,2017:879888

[38]ZhangJ,ZhengY,QiD,etal.DNNbasedpredictionmodelforspatiotemporaldata//Proceedingsofthe24thACMSIGSPATIALInternationalConferenceonAdvancesinGeographicInformationSystems.SanFrancisco,USA,2016:92

[39]ZhangJ,ZhengY,QiD.Deepspatiotemporalresidualnetworksforcitywidecrowdflowsprediction//Proceedingsofthe31stAAAIConferenceonArtificialIntelligence.SanFrancisco,USA,2017:16551661

[40]LvZ,XuJ,ZhengK,etal.LCRNN:Adeeplearningmodelfortrafficspeedprediction//ProceedingsoftheInternationalJointConferenceonArtificialIntelligence.Stockholm,Sweden,2018:34703476

[41]WangX,GirshickR,GuptaA,etal.Nonlocalneuralnetworks//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.SaltLakeCity,USA,2018:77947803

[42]MenneMJ,DurreI,VoseRS,etal.Anoverviewoftheglobalhistoricalclimatologynetworkdailydatabase.JournalofAtmosphericandOceanicTechnology,2012,29(7):897910

[43]KingmaDP,BaJ.Adam:Amethodforstochasticoptimization.arXivpreprintarXiv:1412.6980,2014

[44]OliuM,SelvaJ,EscaleraS.Foldedrecurrentneuralnetworksforfuturevideoprediction//ProceedingsoftheEuropeanConferenceonComputerVision.Munich,Germany,2018:716731

犣犎犃犖犌犑犻犪狀犑犻狀,M.S.candidate.Hisresearchinterestsincludemachinelearningandcomputervision.

犠犃犖犌犢狌狀犅狅,Ph.D.candidate.Hisresearchinterestsincludemachinelearningandcomputervision.

犔犗犖犌犕犻狀犵犛犺犲狀犵,Ph.D.,associateprofessor.Hisresearchinterestsincludemachinelearningandbigdataanalysis.

犠犃犖犌犑犻犪狀犕犻狀,Ph.D.,professor.Hisresearchinterestsincludebigdataandknowledgeengineering.

犠犃犖犌犎犪犻犉犲狀犵,Ph.D.,professorateseniorengineer.Hisresearchinterestsincludenaturallanguageprocessing,machinetranslation,andartificialintelligence.

犅犪犮犽犵狉狅狌狀犱Spatiotemporalpredictionproblemshavemanyvaluable

applicationsinreallife.Forexample,inurbancomputing,meteorologicaldata,airqualitydata,andtrafficflowdataareaccompaniedbytimeinformationandspatialinformation.

Suchrealdatacollectedcontinuouslyatfixedtimeintervalscanbeviewedasaseriesofimages,whichisthenabstractedintoaspatiotemporalpredictionproblem.Traditionalmethodsaregenerallybasedoncomplexphysicalandchemicalmodels,

1032期 张建晋等:面向季节性时空数据的预测式循环网络及其在城市计算中的应用

《 计

算 机

学 报

Page 17: 面向季节性时空数据的预测式循环网络及其 在城市计算中的应用cjc.ict.ac.cn/online/onlinepaper/zjj-2020119221328.pdf网络在北京、纽约的交通流量数据集、美国气象数据集上均取得了目前最高的预测准确性.

whichnotonlyrequirealargenumberofcomputingresourcesbutalsorelyheavilyondomainknowledge.Inrecentyears,deeplearningwithhigherrobustnessandlowercomplexityhasachievedremarkableresultsinthespatiotemporalpredictionproblem.Therefore,aspatiotemporalpredictionalgorithmbasedondeeplearningcanbedesignedtosolvesuchproblems.

Onetypeofspatiotemporalsequencedatahasveryobviousperiodiccharacteristics.Forexample,inthecalculationoftrafficflowinurbancomputing,theactivitiesofthecrowdhavemoreobviousperiodicitywithtime.Duringthepeakhoursofcommuting,peopletravelmoreoftenthanusualandarepronetotrafficcongestion.Onweekendsorholidays,themorningandeveningpeaksarenotobvious.Basedonthisphenomenon,itisconceivabletopredictthespatiotemporalsequencedatainthefutureperiodandrefertothedatainthecorrespondingpreviousperiod.

However,thepredictionofperiodicspatiotemporaldatahastwoproblems.First,thereisrareworktodiscussperiodicspatiotemporaldataintheframeworkofdeeplearning.Themainreasonisthatperiodicsignalsoftenneedtoinputwithlongtermdata,butthecurrentmainstreamconvolutionalrecurrentneuralnetworkssufferfromgradientvanishinganderroraccumulation.

Second,strictperiodicsignalsaredifficulttoobtaininperiodicspatiotemporalprediction.Forexample,inurban

computing,althoughthetrafficflowdatashowsperiodicchangesduetotheinherentroutineofthecrowd,thisperiodicityisanapproximateandvariablerelationship.Itappearsasachangeandshiftofthedatapatternintimeandspace.Weneedtointroduceamoreflexiblelearningmechanismtocorrelateeachperiod,whichisabletoadaptivelylearnthedatapatternoftheappropriatetimepointsandregionsinthehistoricalperiod.

Inthispaper,aSpatiotemporalPeriodicRecurrentNeuralNetworks(STPRNN)isproposedtowardsurbancomputing.Weproposeanewconvolutionmemoryunitthatcanuniformlymodeltemporalandspatialinformation,andsimultaneouslyextractsimilarchangesintheshorttermadjacentdataandlongtermhistoricalperiodicdata.Further,weinnovativelyusethespatiotemporalattentionmoduleinthenewconvolutionmemoryunittomodelthetemporalandspatialelasticcorrespondenceofmemorystatesindifferentperiods,therebyadaptivelyselectinghistoricaldataofthemostrelevantperiod.ThemodelpresentedinthispaperwastestedontwostandardtrafficflowdatasetsofTaxiBJandBikeNYCandoneclimatechangedataset,bothachievingthebestresultstodate.

ThisresearchwassupportedbytheNationalNaturalScienceFoundationofChina(61772299,71690231,61672313).

203 计  算  机  学  报 2020年

《 计

算 机

学 报