面向季节性时空数据的预测式循环网络及其...

书书书

第４３卷　第２期２０２０年２月

计　　算　　机　　学　　报ＣＨＩＮＥＳＥＪＯＵＲＮＡＬＯＦＣＯＭＰＵＴＥＲＳ

Ｖｏｌ．４３Ｎｏ．２Ｆｅｂ．２０２０

　

收稿日期：２０１９０１２５；在线出版日期：２０１９０９２７．本课题得到国家自然科学基金项目（６１７７２２９９，７１６９０２３１，６１６７２３１３）资助．张建晋，硕士研究生，主要研究方向为机器学习与计算机视觉．Ｅｍａｉｌ：ｓｗｊｘｚｊｊ＠ｇｍａｉｌ．ｃｏｍ．王韫博（通信作者，共同第一作者），博士研究生，主要研究方向为机器学习与计算机视觉．Ｅｍａｉｌ：ｗａｎｇｙｂ１５＠ｍａｉｌｓ．ｔｓｉｎｇｈｕａ．ｅｄｕ．ｃｎ．龙明盛，博士，副教授，主要研究方向为机器学习与大数据分析．王建民，博士，教授，博士生导师，国家“万人计划”科技创新领军人才入选者，国家杰出青年科学基金入选者，主要研究领域为大数据与知识工程．王海峰，博士，教授级高工，博士生导师，主要研究领域为自然语言处理、机器翻译、人工智能．

面向季节性时空数据的预测式循环网络及其在城市计算中的应用

张建晋１），２），３）　王韫博１），２），３）　龙明盛１），２），３）　王建民１），２），３）　王海峰２），４）

１）（清华大学软件学院　北京　１０００８４）２）（大数据系统软件国家工程实验室　北京　１０００８４）

３）（清华大学北京信息科学与技术国家研究中心　北京　１０００８４）４）（百度公司　北京　１０００８５）

摘　要　实际生活中有很多带有季节特征的时空数据，在城市计算领域分布尤广，例如交通流量数据便具有较为明显的以天或周为周期的统计学特征．如何有效利用这种季节特征，如何捕捉历史观测与待预测数据之间的相关性，成为了预测此类时空数据未来变化趋势的关键．传统时序建模方法将时序数据分解为多个信号分量，并使用线性模型来进行预测．此类方法具有较强的理论基础，但对于数据的平稳性要求过于严格，难以预测趋势信息复杂的数据，更不适用于高维的时空数据．然而在真实场景下，季节性时空数据的周期长短可变，且不同周期的对应关系往往并不固定，存在时间、空间上的模式变化与偏移，很难作为理想的周期信号以传统时序方法建模．相比之下，深度神经网络建模能力更强，可拟合更为复杂的数据．近几年有许多工作研究了如何利用卷积神经网络和循环神经网络来处理时空数据，也有一些工作讨论了如何有效利用周期性信息提升预测的准确性．但深度神经网络受困于梯度消失和误差累积，难以捕捉时序数据中的长时间依赖，且少有方法讨论如何在深度神经网络中有效建模上述具有弹性周期对应关系的时空信号．本文针对真实场景下季节性时空数据的上述问题，给出具有弹性周期对应关系的时空数据预测问题的形式化定义，并提出了一种新的季节性时空数据预测模型．该模型包含季节网络、趋势网络、时空注意力模块三个部分，可捕捉短期数据中的临近变化趋势和长期数据中隐含的季节性趋势，并广泛考虑历史周期中的每个时空元素对未来预测值的影响．为了解决深度循环网络难以捕捉时序数据中的长时间依赖的问题，本文提出一种新的循环卷积记忆单元，该单元将上述模块融合于一个可端到端训练的神经网络中，一方面实现了时间和空间信息统一建模，另一方面实现了短期趋势特征与历史周期特征的统一建模．进一步地，为了解决季节性数据中的各周期时空元素对应关系不固定的问题，本文探讨了多种基于注意力模块的时空数据融合方式，创新性地提出一种级联式的时空注意力模块，并将其嵌入于上述循环卷积记忆单元内．该模块建模记忆单元的隐藏状态在不同周期内的弹性时空对应关系，自适应地选取相关度高的季节性特征辅助预测．实验部分，我们选取了两个时空数据预测在城市计算中最为典型的应用：交通流量预测和气象数据预报．本文所提出的时空周期性循环神经网络在北京、纽约的交通流量数据集、美国气象数据集上均取得了目前最高的预测准确性．

关键词　深度学习；注意力模型；时空预测；城市计算；时空数据中图法分类号ＴＰ１８　　　犇犗犐号１０．１１８９７／ＳＰ．Ｊ．１０１６．２０２０．００２８６

犘狉犲犱犻犮狋犻狏犲犚犲犮狌狉狉犲狀狋犖犲狋狑狅狉犽狊犳狅狉犛犲犪狊狅狀犪犾犛狆犪狋犻狅狋犲犿狆狅狉犪犾犇犪狋犪狑犻狋犺犃狆狆犾犻犮犪狋犻狅狀狊狋狅犝狉犫犪狀犆狅犿狆狌狋犻狀犵

ＺＨＡＮＧＪｉａｎＪｉｎ１），２），３）　ＷＡＮＧＹｕｎＢｏ１），２），３）　ＬＯＮＧＭｉｎｇＳｈｅｎｇ１），２），３）ＷＡＮＧＪｉａｎＭｉｎ１），２），３）　ＷＡＮＧＨａｉＦｅｎｇ２），４）

１）（犛犮犺狅狅犾狅犳犛狅犳狋狑犪狉犲，犜狊犻狀犵犺狌犪犝狀犻狏犲狉狊犻狋狔，犅犲犻犼犻狀犵　１０００８４）２）（犖犪狋犻狅狀犪犾犈狀犵犻狀犲犲狉犻狀犵犔犪犫犳狅狉犅犻犵犇犪狋犪犛狅犳狋狑犪狉犲，犅犲犻犼犻狀犵　１０００８４）

３）（犅犲犻犼犻狀犵犖犪狋犻狅狀犪犾犚犲狊犲犪狉犮犺犆犲狀狋犲狉犳狅狉犐狀犳狅狉犿犪狋犻狅狀犛犮犻犲狀犮犲犪狀犱犜犲犮犺狀狅犾狅犵狔（犅犖犚犻狊狋），犜狊犻狀犵犺狌犪犝狀犻狏犲狉狊犻狋狔，犅犲犻犼犻狀犵　１０００８４）４）（犅犪犻犱狌犐狀犮．，犅犲犻犼犻狀犵　１０００８５）

犃犫狊狋狉犪犮狋　Ｔｈｅｒｅａｒｅｍａｎｙｒｅａｌｗｏｒｌｄｓｐａｔｉｏｔｅｍｐｏｒａｌｄａｔａｆｏｒｍａｔｓｗｉｔｈｓｅａｓｏｎａｌｓｔａｔｉｓｔｉｃａｌｐａｔｔｅｒｎｓ，

《计

算机

学报

》

ｗｈｉｃｈａｒｅｗｉｄｅｌｙｄｉｓｔｒｉｂｕｔｅｄｉｎｔｈｅｆｉｅｌｄｏｆｕｒｂａｎｃｏｍｐｕｔｉｎｇ．Ｆｏｒｅｘａｍｐｌｅ，ｔｈｅｔｒａｆｆｉｃｆｌｏｗｄａｔａｈａｓｓｉｇｎｉｆｉｃａｎｔｐｅｒｉｏｄｉｃｓｔａｔｉｓｔｉｃａｌｃｈａｒａｃｔｅｒｉｓｔｉｃｓｗｉｔｈｄａｙｓｏｒｗｅｅｋｓ．Ｈｏｗｔｏｅｆｆｅｃｔｉｖｅｌｙｕｓｅｔｈｉｓｓｅａｓｏｎａｌｆｅａｔｕｒｅ，ｈｏｗｔｏｃａｐｔｕｒｅｔｈｅｃｏｒｒｅｌａｔｉｏｎｂｅｔｗｅｅｎｈｉｓｔｏｒｉｃａｌｏｂｓｅｒｖａｔｉｏｎｓａｎｄｄａｔａｔｏｂｅｐｒｅｄｉｃｔｅｄｂｅｃｏｍｅｓｔｈｅｋｅｙｔｏｐｒｅｄｉｃｔｉｎｇｔｈｅｆｕｔｕｒｅｔｒｅｎｄｏｆｓｕｃｈｓｐａｔｉｏｔｅｍｐｏｒａｌｄａｔａ．Ｔｒａｄｉｔｉｏｎａｌｔｉｍｅｓｅｒｉｅｓｍｏｄｅｌｉｎｇｍｅｔｈｏｄｓｄｅｃｏｍｐｏｓｅｔｉｍｅｓｅｒｉｅｓｄａｔａｉｎｔｏｍｕｌｔｉｐｌｅｓｉｇｎａｌｃｏｍｐｏｎｅｎｔｓａｎｄｕｓｅｌｉｎｅａｒｍｏｄｅｌｓｔｏｍａｋｅｐｒｅｄｉｃｔｉｏｎｓ．Ｔｈｅｓｅｍｅｔｈｏｄｓｈａｖｅｓｔｒｏｎｇｔｈｅｏｒｅｔｉｃａｌｂａｓｅｓ，ｂｕｔｔｈｅｙａｌｓｏｈａｖｅｔｏｏｓｔｒｉｃｔａｓｓｕｍｐｔｉｏｎｓｏｎｔｈｅｓｔａｔｉｏｎａｒｉｔｙ，ｓｏｔｈａｔｔｈｅｙｃａｎｂｅｈａｒｄｌｙｕｓｅｄｆｏｒｓｅｑｕｅｎｔｉａｌｄａｔａｗｉｔｈｃｏｍｐｌｅｘｖａｒｉａｔｉｏｎｓ，ｌｅｔａｌｏｎｅｆｏｒｔｈｅｈｉｇｈｄｉｍｅｎｓｉｏｎａｌｓｐａｔｉｏｔｅｍｐｏｒａｌｄａｔａ．Ｈｏｗｅｖｅｒ，ｉｎｒｅａｌｗｏｒｌｄｓｃｅｎａｒｉｏｓ，ｔｈｅｐｅｒｉｏｄｓｏｆｓｅａｓｏｎａｌｓｐａｔｉｏｔｅｍｐｏｒａｌｄａｔａａｒｅｖａｒｉａｂｌｅ，ａｎｄｔｈｅｃｏｒｒｅｓｐｏｎｄｅｎｃｅｂｅｔｗｅｅｎｄｉｆｆｅｒｅｎｔｐｅｒｉｏｄｓｉｓｏｆｔｅｎｎｏｔｆｉｘｅｄ．Ｔｈｅｒｅａｒｅｔｅｍｐｏｒａｌａｎｄｓｐａｔｉａｌｃｈａｎｇｅｓａｎｄｏｆｆｓｅｔｓ．Ｔｈｕｓ，ｉｔｉｓｄｉｆｆｉｃｕｌｔｔｏｍｏｄｅｌｉｔａｓａｎｉｄｅａｌｓｅａｓｏｎａｌｔｉｍｅｓｅｒｉｅｓｕｓｉｎｇｔｒａｄｉｔｉｏｎａｌｔｉｍｅｓｅｒｉｅｓｍｅｔｈｏｄｓ．Ｉｎｃｏｎｔｒａｓｔ，ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓａｒｅｍｏｒｅｐｏｗｅｒｆｕｌａｎｄｃａｎｆｉｔｍｏｒｅｃｏｍｐｌｅｘｄａｔａ．Ｉｎｒｅｃｅｎｔｙｅａｒｓ，ｔｈｅｒｅｈａｖｅｂｅｅｎｍａｎｙｐａｐｅｒｓｓｔｕｄｙｉｎｇｈｏｗｔｏｕｓｅｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓａｎｄｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓｔｏｐｒｏｃｅｓｓｓｐａｔｉｏｔｅｍｐｏｒａｌｄａｔａ．Ｓｏｍｅｗｏｒｋｈａｓａｌｓｏｄｉｓｃｕｓｓｅｄｈｏｗｔｏｅｆｆｅｃｔｉｖｅｌｙｕｓｅｔｈｅｐｅｒｉｏｄｉｃｉｎｆｏｒｍａｔｉｏｎｔｏｉｍｐｒｏｖｅｔｈｅａｃｃｕｒａｃｙｏｆｐｒｅｄｉｃｔｉｏｎ．Ｈｏｗｅｖｅｒ，ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓｃａｎｅａｓｉｌｙｓｕｆｆｅｒｆｒｏｍｇｒａｄｉｅｎｔｖａｎｉｓｈｉｎｇａｎｄｅｒｒｏｒａｃｃｕｍｕｌａｔｉｏｎ，ｗｈｉｃｈｍａｋｅｓｉｔｄｉｆｆｉｃｕｌｔｔｏｃａｐｔｕｒｅｌｏｎｇｔｅｒｍｄｅｐｅｎｄｅｎｃｉｅｓｏｆｔｉｍｅｓｅｒｉｅｓｄａｔａ．Ｍｏｒｅｏｖｅｒ，ｔｈｅｒｅｈａｖｅｂｅｅｎｆｅｗｍｅｔｈｏｄｓｉｎｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓｔｈａｔｄｉｓｃｕｓｓｈｏｗｔｏｅｆｆｅｃｔｉｖｅｌｙｍｏｄｅｌｔｈｅａｂｏｖｅｍｅｎｔｉｏｎｅｄｓｐａｔｉｏｔｅｍｐｏｒａｌｓｉｇｎａｌｓｗｉｔｈｅｌａｓｔｉｃｐｅｒｉｏｄｉｃｃｏｒｒｅｓｐｏｎｄｅｎｃｅ．Ｉｎｔｈｉｓｐａｐｅｒ，ｂａｓｅｄｏｎｔｈｅａｂｏｖｅｐｒｏｂｌｅｍｓｏｆｓｅａｓｏｎａｌｓｐａｔｉｏｔｅｍｐｏｒａｌｄａｔａｉｎｒｅａｌｗｏｒｌｄｓｃｅｎａｒｉｏｓ，ｗｅｇｉｖｅｔｈｅｆｏｒｍａｌｄｅｆｉｎｉｔｉｏｎｏｆｓｐａｔｉｏｔｅｍｐｏｒａｌｄａｔａｐｒｅｄｉｃｔｉｏｎｐｒｏｂｌｅｍｗｉｔｈｅｌａｓｔｉｃｐｅｒｉｏｄｃｏｒｒｅｓｐｏｎｄｅｎｃｅｓａｎｄｐｒｏｐｏｓｅａｎｅｗｓｅａｓｏｎａｌｓｐａｔｉｏｔｅｍｐｏｒａｌｄａｔａｐｒｅｄｉｃｔｉｏｎｍｏｄｅｌ．Ｔｈｅｍｏｄｅｌｃｏｎｓｉｓｔｓｏｆａｓｅａｓｏｎａｌｎｅｔｗｏｒｋ，ａｔｒｅｎｄｎｅｔｗｏｒｋ，ａｎｄａｓｐａｃｅｔｉｍｅａｔｔｅｎｔｉｏｎｍｏｄｕｌｅ，ｗｈｉｃｈｃａｎｃａｐｔｕｒｅｔｈｅｎｅａｒｔｅｒｍｔｒｅｎｄｓｉｎｓｈｏｒｔｔｅｒｍｄａｔａａｎｄｔｈｅｓｅａｓｏｎａｌｔｒｅｎｄｓｉｍｐｌｉｅｄｉｎｌｏｎｇｔｅｒｍｄａｔａ，ａｎｄｗｉｄｅｌｙｃｏｎｓｉｄｅｒｔｈｅｉｍｐａｃｔｏｆｅａｃｈｓｐａｃｅｔｉｍｅｅｌｅｍｅｎｔｉｎｔｈｅｈｉｓｔｏｒｉｃａｌｃｙｃｌｅｓｔｏｔｈｅｐｒｅｄｉｃｔｅｄｆｕｔｕｒｅｄａｔａｖａｌｕｅｓ．Ｔｏｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｔｈａｔｔｈｅｄｅｅｐｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓａｒｅｄｉｆｆｉｃｕｌｔｔｏｃａｐｔｕｒｅｌｏｎｇｔｅｒｍｄｅｐｅｎｄｅｎｃｉｅｓ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｎｅｗｒｅｃｕｒｒｅｎｔｃｏｎｖｏｌｕｔｉｏｎａｌｍｅｍｏｒｙｕｎｉｔ，ｗｈｉｃｈｃｏｍｂｉｎｅｓｔｈｅａｂｏｖｅｍｏｄｕｌｅｓｉｎｔｏａｎｅｎｄｔｏｅｎｄｔｒａｉｎａｂｌｅｎｅｕｒａｌｎｅｔｗｏｒｋ．Ｉｔｎｏｔｏｎｌｙｍｏｄｅｌｓｔｈｅｔｅｍｐｏｒａｌａｎｄｓｐａｔｉａｌｉｎｆｏｒｍａｔｉｏｎｓｉｍｕｌｔａｎｅｏｕｓｌｙｂｕｔａｌｓｏｔｈｅｓｈｏｒｔｔｅｒｍｔｒｅｎｄｓａｎｄｈｉｓｔｏｒｉｃａｌｐｅｒｉｏｄｉｃｔｒｅｎｄｓ．Ｆｕｒｔｈｅｒｍｏｒｅ，ｔｏｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｔｈａｔｔｈｅｃｏｒｒｅｓｐｏｎｄｅｎｃｅｓｂｅｔｗｅｅｎｅｌｅｍｅｎｔｓｉｎｅａｃｈｃｙｃｌｅｏｆｔｈｅｓｅａｓｏｎａｌｄａｔａａｒｅｎｏｔｓｔｒｉｃｔｌｙｆｉｘｅｄ，ｔｈｉｓｐａｐｅｒｄｉｓｃｕｓｓｅｓａｖａｒｉｅｔｙｏｆｓｐａｃｅｔｉｍｅｄａｔａｆｕｓｉｏｎｍｅｔｈｏｄｓｂａｓｅｄｏｎｄｉｆｆｅｒｅｎｔａｔｔｅｎｔｉｏｎｍｏｄｕｌｅｓ，ｐｒｏｐｏｓｅｓａｎｅｗｃａｓｃａｄｅｄｓｐａｃｅｔｉｍｅａｔｔｅｎｔｉｏｎｍｏｄｕｌｅ，ａｎｄｉｎｔｅｇｒａｔｅｓｉｔｗｉｔｈｉｎｔｈｅａｂｏｖｅｒｅｃｕｒｒｅｎｔｃｏｎｖｏｌｕｔｉｏｎｍｅｍｏｒｙｕｎｉｔ．Ｔｈｅｍｏｄｕｌｅｍｏｄｅｌｓｔｈｅｅｌａｓｔｉｃｓｐａｃｅｔｉｍｅｃｏｒｒｅｓｐｏｎｄｅｎｃｅｓｏｆｔｈｅｈｉｄｄｅｎｓｔａｔｅｓｉｎｄｉｆｆｅｒｅｎｔｃｙｃｌｅｓ，ａｎｄａｄａｐｔｉｖｅｌｙｓｅｌｅｃｔｓｔｈｅｓｅａｓｏｎａｌｆｅａｔｕｒｅｓｗｉｔｈｈｉｇｈｃｏｒｒｅｌａｔｉｏｎｓｔｏａｓｓｉｓｔｆｕｔｕｒｅｐｒｅｄｉｃｔｉｏｎ．Ｉｎｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｐａｒｔ，ｗｅｓｅｌｅｃｔｔｗｏｔｙｐｉｃａｌａｐｐｌｉｃａｔｉｏｎｓｏｆｓｐａｔｉｏｔｅｍｐｏｒａｌｐｒｅｄｉｃｔｉｏｎｉｎｕｒｂａｎｃｏｍｐｕｔｉｎｇ：ｔｒａｆｆｉｃｆｌｏｗｐｒｅｄｉｃｔｉｏｎａｎｄｍｅｔｅｏｒｏｌｏｇｉｃａｌｄａｔａｆｏｒｅｃａｓｔｉｎｇ．ＯｕｒｐｒｏｐｏｓｅｄｍｏｄｅｌｈａｓａｃｈｉｅｖｅｄｔｈｅｈｉｇｈｅｓｔｐｒｅｄｉｃｔｉｏｎａｃｃｕｒａｃｙｉｎＢｅｉｊｉｎｇａｎｄＮｅｗＹｏｒｋｔｒａｆｆｉｃｆｌｏｗｄａｔａｓｅｔｓ，ａｓｗｅｌｌａｓａＵＳｍｅｔｅｏｒｏｌｏｇｉｃａｌｄａｔａｓｅｔ．

犓犲狔狑狅狉犱狊　ｄｅｅｐｌｅａｒｎｉｎｇ；ａｔｔｅｎｔｉｏｎｍｏｄｅｌ；ｓｐａｔｉｏｔｅｍｐｏｒａｌｐｒｅｄｉｃｔｉｏｎ；ｕｒｂａｎｃｏｍｐｕｔｉｎｇ；ｓｐａｔｉｏｔｅｍｐｏｒａｌｄａｔｅ

１　引　言时空数据预测问题在城市计算中具有尤其重要

的现实意义．其中，交通流量、空气质量、降水云图等时空数据都同时带有明显季节性统计学特征．以交通流量数据为例（如图１所示），城市的交通状况随

着人群的活动表现出较为明显的以天或周为周期的变化规律，人们的出行在工作日的早、晚高峰显著增加，交通拥堵随之出现；而在周末或假期中，全天的交通流量比较平均．基于这种现象，预测未来一段时间内的时空数据可以参考上一周期相近时间段内的历史数据，合理利用数据的季节特性，可以有效提升时空数据的预测准确性．

７８２２期张建晋等：面向季节性时空数据的预测式循环网络及其在城市计算中的应用

《计

算机

学报

》

图１　左图为北京市某连续三个时刻的交通流量．注意到北京三元桥附近交通流量强度较高（以黄色标识）；右图为２０１４年３月１７日北京三元桥附近的平均流量，与前一日、上周的相同时间段的交通流量相关度较高，而又略有差异传统方法利用复杂的物理化学模型来解决上述

问题，需要大量的计算资源，且泛化能力较差［１］．近年来，深度神经网络迅速发展，亦被应用于时空预测问题，可以刻画复杂的时空变化趋势，且深度神经网络易于并行，执行效率相对传统模型更高．通常把连续采集的城市计算数据处理为等时间间隔、等空间尺寸的一系列图像，便于深度神经网络求解．然而，虽然深度网络在一般性的时空预测问题上已经取得了显著的效果提升，却很少有工作讨论如何用此类模型解决捕获时空数据中的季节特性．这是因为准确预测季节性时空数据要面临两个难题．其一，目前主流的深度时空预测模型采用卷积网络或循环网络来对时间依赖关系建模，受困于梯度消失（ＧｒａｄｉｅｎｔＶａｎｉｓｈｉｎｇ）和误差累积，难以处理长时间跨度的时空数据，但显著的季节特性往往存在于较长跨度的信号之间．其二，严格的周期信号在季节性时空数据中是很难得到的，例如，尽管交通流量数据因为人群的固有作息规律会呈现出周期性变化，但是这种周期性是一种近似的、弹性的关系，各周期变化趋势和时空对应关系并不固定，存在时间和空间上的模式变化和偏移，并不具有理想状态下的周期信号的特性．传统的季节性预测模型将一维的时序信号分解为趋势分量、季节分量和随机分量．但这种分解已经不适用于高维时空数据．因此，本文的目标是研究一种新模型来学习高维时空数据中隐含的季节依赖关系，自适应地学习历史周期中的合适时间点、合适区域的时空数据模式，使得学到的周期依赖关系在时间维度和空间维度上都更加具有弹性．

本文以城市计算为典型应用，提出时空周期性循环网络（ＳｐａｔｉｏｔｅｍｐｏｒａｌＰｅｒｉｏｄｉｃＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ，下文称ＳＴＰＲＮＮ）．该网络的核心是一种新的循环卷积记忆单元，可以对时间和空间信息统一建模，并同时提取短期临近数据中的趋势特征

和历史周期数据中类似的季节特征．进一步地，本文创新性地在新的循环卷积记忆单元内使用级联式的时空注意力模块，建模记忆单元在不同周期内的隐藏状态在时间维度和空间维度上的弹性对应关系，从而自适应地选取相关度最高的季节性特征辅助预测．在后续实验中，ＳＴＰＲＮＮ模型在两个城市交通流量数据集和一个气候变化数据集上均取得了目前最高的预测准确度．实际上，本文是最早利用可变的季节性信息提升卷积循环神经网络预测能力的工作之一．

２　相关工作２１　季节性时序数据的传统预测方法

时空数据作为一种特殊的高维时序数据广泛存在于动作识别、视频描述、城市计算等多个领域．对于一般性的时序数据，传统机器学习方法基于自回归模型或马尔科夫性进行预测［２３］；对于一般性的时空数据，需将其转化为时间序列．常见的时序预测模型包括移动平均自回归模型（ＡＲＭＡ）及其变种，如差分整合移动平均自回归模型（ＡＲＩＭＡ）、带有长时记忆的自回归模型（ＡＲＦＩＭＡ）、能够处理多变量时序数据的向量自回归模型（ＶＡＲ）等．

其中被最广泛使用的ＡＲＩＭＡ模型首先将非平稳性序列转化为平稳性序列，然后对其趋势分量和随机分量进行估计，其扩展版本ＳＡＲＩＭＡ模型，在捕捉趋势分量和随机分量的基础上，同时建模数据中包含的季节性信息，并依据这三项信息进行预测．然而，上述模型无法有效利用时空数据中的空间相关性，而城市计算中的季节性信号往往在空间上存在着较强关联，同时在不同周期间存在空间对应关系上的程度变化或位置偏移，传统模型不再适用．２２　时空数据预测问题中的深度学习技术

近年来，以卷积神经网络（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，下文称ＣＮＮ）和循环神经网络（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ，下文称ＲＮＮ）为代表的深度模型被成功应用于图像识别、自然语言处理、时序数据预测等问题．在时空数据的相关任务上，亦涌现出若干基于上述基本网络结构的深度学习模型．２．２．１　基于循环神经网络的时空数据预测模型

ＲＮＮ［４５］被广泛应用于语音识别、机器翻译［６８］

等问题中．ＲＮＮ中被最常使用的两种结构是长短时记忆单元（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ，ＬＳＴＭ）［９］和序列到序列模型（ＳｅｑｕｅｎｃｅｔｏＳｅｑｕｅｎｃｅ，Ｓｅｑ２Ｓｅｑ）［１０］．

８８２计　　算　　机　　学　　报２０２０年

《计

算机

学报

》

其中，ＬＳＴＭ将输入序列在时间维的变化趋势以隐藏状态（ＨｉｄｄｅｎＳｔａｔｅ）的形式不断传递和更新［１１１２］，并将历史特征保存在其记忆状态中（ＣｅｌｌＳｔａｔｅ），从而克服梯度消失问题．本文所提出的网络节点单元本质上可以看做是ＬＳＴＭ针对季节性时空数据的扩展．Ｓｅｑ２Ｓｅｑ模型由编码器（Ｅｎｃｏｄｅｒ）与解码器

（Ｄｅｃｏｄｅｒ）构成，编码器用一个ＲＮＮ将输入映射到隐状态，然后将其传递给解码器，解码器用另一个ＲＮＮ将其映射为预测结果．基于Ｓｅｑ２Ｓｅｑ模型，Ｓｒｉｖａｓｔａｖａ等人在２０１５年提出使用ＲＮＮ来对时空数据进行预测［１３］．如图２（ａ）所示，该模型使用多层前馈全连接神经网络将时空数据压缩，并作为Ｓｅｑ２Ｓｅｑ架构的输入，获取输出后，仍然使用多层前馈全连接神经网络将特征还原成时空序列数据．由于ＬＳＴＭ节点内部的门结构较为复杂，因此序列到序列的输入维度不能过高，这就使得数据中相当一部分信息在压缩过程中被丢弃，进而对模型效果造成一定影响．

图２　几种典型的针对时空数据预测问题的深度神经网络架构（由上至下依次为：（ａ）早期的Ｓｅｑ２Ｓｅｑ架构；（ｂ）基于ＣＮＮ门结构的ＰｒｅｄＣＮＮ架构；（ｃ）ＣＮＮ与ＲＮＮ级联式架构；（ｄ）ＣＮＮ与ＲＮＮ嵌入式架构）

２．２．２　基于卷积神经网络的时空数据预测模型ＣＮＮ最早由ＬｅＣｕｎ等人提出［１４］．得益于近年

来ＧＰＵ技术的发展和深度网络算法的持续改进，以２０１２年Ｋｒｉｚｈｅｖｓｋｙ等人提出ＡｌｅｘＮｅｔ［１５］为标志（ＡｌｅｘＮｅｔ提取的深度特征，相比传统图像特征，在ＩｍａｇｅＮｅｔ数据集上将Ｔｏｐ５分类错误率从２５．８％降低到１６．４％），关于ＣＮＮ的研究与应用飞速发展，并逐渐出现了ＶＧＧＮＥＴ［１６］、ＧｏｏｇＬｅＮｅｔ［１７］、ＲｅｓＮｅｔ［１８］、ＤｅｎｓｅＮｅｔ［１９］等更深、更复杂、分类准确性更高的ＣＮＮ模型．

因ＣＮＮ易于并行，梯度消失相比ＲＮＮ更低，故而很多方法［２０］利用时间维度上的卷积对时序数据建模．如ＷａｖｅＮｅｔ［２１］即使用在时间维度上的多层卷积［２２］来使得更高的卷积层能够捕获更全局的序列特征．在时空预测任务上，Ｘｕ等人基于ＷａｖｅＮｅｔ结构，将时间卷积和空间卷积结合，设计了基于级联乘法单元（ＣａｓｃａｄｅＭｕｌｔｉｐｌｉｃａｔｉｖｅＵｎｉｔ，ＣＭＵ）的预测式卷积神经网络（ＰｒｅｄｉｃｔｉｖｅＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＰｒｅｄＣＮＮ）［２３］，其结构如图２（ｂ）所示．受制于卷积层的级联架构，ＰｒｅｄＣＮＮ模型难以捕捉较长时间序列中的偏序依赖关系．此外，为了拉近生成数据和真实图像的分布距离，研究者们在时空数据预测任务中将ＣＮＮ和生成式对抗网络（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ，ＧＡＮ）［２４２５］结合，这类方法［２６２８］在理论上可以更好地刻画输入数据与输出数据之间的多模态（ＭｕｌｔｉＭｏｄａｌ）对应关系，使得生成的图像序列更加逼真．虽然实验证明ＰｒｅｄＣＮＮ在交通流量预测任务上效果提升明显，而基于对抗网络的ＣＮＮ模型能在自然图像生成任务上显著提升生成图像的锐利度（尚没有实验结果表明此类模型同样适用于非自然图像，如城市计算中的时空数据），上述两类模型却仍然没有有效利用时空数据中可能存在的季节特征，而是仅仅关注了其中的趋势项，忽略了季节项．２．２．３　ＣＮＮ和ＲＮＮ相结合的时空数据预测模型

上文提到，时空数据预测问题的核心难题之一是如何同时捕捉空间区域内各元素强度的相关性和它们各自随时间的演变规律．因此，研究者们提出了多种基于ＣＮＮ和ＲＮＮ的级联模型，即通过ＣＮＮ编码器抽取每一帧的空间特征向量，然后输入到ＲＮＮ中，进行时序建模，最后使用ＣＮＮ解码器生成预测帧，其整体架构如图２（ｃ）所示．如Ｄｏｎａｈｕｅ等人在２０１５提出的ＬＲＣＮ（ＬｏｎｇｔｅｒｍＲｅｃｕｒｒｅｎｔＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ）［２９］即采用上述方式来对

９８２２期张建晋等：面向季节性时空数据的预测式循环网络及其在城市计算中的应用

《计

算机

学报

》

时空数据进行处理．Ｄｅｎｔｏｎ等人在２０１８年也提出了使用类似架构进行时空预测的效果［３０］，同时使用变分自编码器（ＶａｒｉａｔｉｏｎａｌＡｕｔｏｅｎｃｏｄｅｒ，ＶＡＥ）［３１］在建模数据趋势分量的同时也试图建模随机分量．此类模型的缺点是对于空间信息过于压缩，难以刻画像素级别的时序变化，生成的图像细节损失严重．

那么可否将ＣＮＮ和ＲＮＮ的特征深度融合，同时对图像进行空间和时间的建模呢？２０１５年，Ｓｈｉ等人提出了卷积长短时记忆单元（ＣｏｎｖｏｌｕｔｉｏｎａｌＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ，下文称ＣｏｎｖＬＳＴＭ）［３２］，将ＬＳＴＭ中的矩阵相乘操作替换为卷积操作，使得记忆单元可以处理更高维度的数据．ＣｏｎｖＬＳＴＭ以上一时间点输出的隐藏状态犎狋－１以及本节点的输入数据作为输入，输出本节点的隐藏状态犎狋，并将本节点更新的记忆状态犆随时间传递．记忆状态犆的更新操作由三种门结构控制：输入门，将当前结点的输入和上一节点输出的隐藏状态选择性的记录到记忆状态犆中；遗忘门，将记忆状态犆中的信息选择性的遗忘；输出门，控制当前节点隐藏状态犎的输出．基于ＣｏｎｖＬＳＴＭ的卷积循环网络模型如图２（ｄ）所示．很多时空数据预测模型都以ＣｏｎｖＬＳＴＭ为基本网络结构［３３３５］：Ｋａｌｃｈｂｒｅｎｎｅｒ等人在２０１７年提出的ＶＰＮ模型（ＶｉｄｅｏＰｉｘｅｌＮｅｔｗｏｒｋ）［３６］对时间维度、空间维度、ＲＧＢ维度分别用ＲＮＮ建模其各自元素间的依赖关系；Ｗａｎｇ等人在２０１７年提出的预测式循环神经网络（ＰｒｅｄｃｔｉｖｅＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＰｒｅｄＲＮＮ）［３７］构造新的空间记忆状态犕，且犕在循环单元之间纵向传递的同时，也会从本时间点的最高层传递到下一时间点的第一层．这种传递方式能够更有效地抽取时空数据中的空间信息．然而，上述工作一方面仍然受制于ＬＳＴＭ的缺点，难以解决长时间的梯度消失和误差累积，另一方面，依然没有兼顾到长跨度时空数据中的季节性特征．２．２．４　面向季节性时空数据预测的深度神经网络

针对城市交通流量预测问题，Ｚｈａｎｇ等人在２０１６年提出了基于ＣＮＮ的深度时空模型（ＤｅｅｐＳＴ）［３８］，在深度网络的框架下建模季节信息；后又在２０１７年在该模型中加入残差单元（ＲｅｓｉｄｕａｌＵｎｉｔ）［１８］并提出了时空残差网络（ＳＴＲｅｓＮｅｔ）［３９］．ＳＴＲｅｓＮｅｔ架构如图３所示．该模型包含用于

处理较远期数据的趋势信息的Ｔｒｅｎｄ网络；用于处理周期性信息的Ｐｅｒｉｏｄ网络；用于处理最近期数据趋势信息的Ｃｌｏｓｅｎｅｓｓ网络．三个网络使用相似的

包含若干个残差单元的卷积网络结构，首先从原始时空数据序列中采集固定时间间隔多帧数据（距离被预测时间点越远的数据使用的时间间隔越大），并将数据在通道维度上连结，分别输入到每个网络中，最终将三个子网络输出结果融合．此外，一些额外因素如节假日、异常天气等会影响人们的出行意愿，导致城市交通流量出现相对异常的数据．该模型使用另一组Ｅｘｔｅｒｎａｌ网络修正其他三个网络融合的结果．相比于传统机器学习算法，时空残差网络最终在城市交通流量预测问题上取得了较好的效果．但ＳＴＲｅｓＮｅｔ作为一种卷积模型，存在一定的局限性；首先，该网络仅能预测未来１帧，无法给出长期预测；其次，网络中将初始的时空数据在通道维度上进行连结，导致其失去了时序特征，并使后续的卷积神经网络平等地对待输入中的每一帧数据，影响了最终结果的准确性．

图３　时空残差网络（ＳＴＲｅｓＮｅｔ）［３９］架构同样针对交通流量预测问题，Ｌｖ等人提出了查

询式卷积循环网络（ＬＣＲＮＮ）［４０］，将道路拓扑信息的特征表达结合进深度网络中．在历史周期数据的处理上（以天为例），该模型针对每一条道路，学习该道路上过去多天的历史数据的平均值到待预测值的映射．该模型的弊端有二，其一，其所学到的周期模式之间的时空依赖关系不是弹性的；其二，其适用范围被严格限制在了交通预测任务上，且由于严重依赖于道路拓扑，该模型在不同城市之间的迁移能力有待检验．２３　小结

相较于传统ＡＲＩＭＡ模型，基于ＣＮＮ和ＲＮＮ的深度神经网络极大地提升了时空数据预测的准确性，但目前主流方法的缺点是对较长时空序列中隐含的季节特征无法精准把握．与上述方法不同，本文将ＣＮＮ与ＲＮＮ的节点单元紧密结合，自适应地建模短期临近数据的趋势特征和不同周期间的季节性特征，并针对不同周期之间数据可能存在的变化，提出了弹性的级联式注意力模型，从历史序列中抽取特征辅助当前序列数据的预测．

０９２计　　算　　机　　学　　报２０２０年

《计

算机

学报

》

３　时空周期性预测网络城市计算中的时空数据，以交通流量数据为例，

往往具有两大季节特性，其一，这类数据中存在着多种天然的季节性，如图１，某日某地的平均交通流量与前一日以及上周相同时间段的交通流量相关度较高，这多种季节性的趋势信息可以为未来的预测提供全面的辅助．其二，不同周期间的时空元素并非严格一一对应的，其中普遍存在着以周期为单位的整体趋势变化，或不同周期的各元素在幅值、相位、时间对应关系、空间位置对应关系上的抖动和偏移．基于以上两点，本文需要构建一种模型，可以自适应地提取多时空周期中互补的信息，辅助当前的预测任务．

在这一节中，将首先给出季节性时空预测问题的定义，然后重点介绍本文的核心———带有级联式的时空注意力模块的时空周期性循环网络（ＳｐａｔｉｏｔｅｍｐｏｒａｌＰｅｒｉｏｄｉｃＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ，下文称ＳＴＰＲＮＮ）．为方便叙述，现将本文常用符号总结如表１所示．

表１　本文常用符号及含义符号含义犡狋，犡^狋真实序列数据、预测序列数据狋，狋′ 当前数据时刻、历史数据中某时刻犎，犆，犕季节网络和趋势网络中的隐状态、趋势记忆状

态、季节记忆状态

犎，犕趋势网络中，经过时空注意力模块处理后的隐状态和季节记忆状态

犻，犵，犳控制趋势记忆状态的三种门结构犻′，犵′，犳′ 控制季节记忆状态的三种门结构狅控制双记忆状态融合的输出门

３１　季节性时空数据预测问题定义如果某多维时间序列在每个时间点上的多个值

具有一定的空间关系，则该多维时间序列为时空序列，例如视频数据除了不同帧之间存在着时间相关性之外，还在不同像素之间存在着空间相关性．下面给出通用时空数据预测问题的定义．假设正在监控某一动态系统，该动态系统每隔固定的时间会产生犮个测量值，且这些测量值均可以表示为狑×犺大小的图片，最终可生成一张狑×犺×犮的图片．该系统产生的所有测量值定义为犡∈犚狑×犺×犮．设当前时刻为狋，含当前时刻已有过去犑个时刻的测量值犡｛狋－犑＋１：狋｝＝｛犡狋－犑＋１，…，犡狋｝，需要预测未来犓个时间点的测量值犡｛狋＋１：狋＋犓｝＝｛犡狋＋１，…，犡狋＋犓｝．则有：

犡^｛狋＋１：狋＋犓｝＝ａｒｇｍａｘ犡狋＋１，…，犡狋＋犓狆（犡｛狋＋１：狋＋犓｝｜犡｛狋－犑＋１：狋｝）

＝ａｒｇｍａｘ犡狋＋１，…，犡狋＋犓狆（犡狋＋１｜犡｛狋－犑＋１：狋｝）∏

犓

狀＝２狆（犡狋＋狀｜犡狋＋狀－１（））

（１）当季节信息不显著时，趋势信息即为主导，可根

据序列的马尔科夫性建立生成模型，求解未来犓帧数据相对于过去犑帧数据的条件概率，如图４（ａ）所示．

图４　季节性时空数据预测问题的建模方法（由上至下分别为：（ａ）仅建模短期趋势信息（适用于一般性的时空预测）；（ｂ）对带有固定周期对应关系的时空预测问题，建模季节信息和短期趋势信息；（ｃ）对带有固定周期对应关系的时空预测问题，同时建模季节信息、短期趋势信息、长期趋势信息；（ｄ）对带有弹性周期对应关系的时空预测问题，建模季节信息和短期趋势信息；（ｅ）对带有弹性周期对应关系的时空预测问题，同时建模季节信息、短期趋势信息、长期趋势信息）

　　在此基础上，假设该时空数据具有长度为犜的固定周期，各周期内的时间、空间上的各元素的对应关系固定，且可以获得过去若干周期的历史数据｛犡｛狋－犿犜＋１：狋－犿犜＋犓｝｝犿１：犿２，犿表示距离狋时刻的周期数，且犿∈［犿１，犿２］，犿１，犿２均为正整数，则上述公式转化为

１９２２期张建晋等：面向季节性时空数据的预测式循环网络及其在城市计算中的应用

《计

算机

学报

》

犡^｛狋＋１：狋＋犓｝＝ａｒｇｍａｘ犡狋＋１，…，犡狋＋犓狆（犡｛狋＋１：狋＋犓｝｜ＸＸ，犡｛狋－犑＋１：狋｝）

＝ａｒｇｍａｘ犡狋＋１，…，犡狋＋（

犓狆（犡狋＋１｜犡｛狋－犑＋１：狋｝，｛犡狋－犿犜＋１｝犿１，犿２）·

　∏犓

狀＝２狆（犡狋＋狀｜犡狋＋狀－１，｛犡狋－犿犜＋狀｝犿１，犿２）），

ＸＸ＝｛犡｛狋－犿犜＋１：狋－犿犜＋犓｝｝犿１：犿２（２）

图５　（ａ）为季节网络架构；（ｂ）为以固定的周期对应关系为假设的，不使用时空注意力模块的周期循环网络架构，注意到趋势网络的各节点与季节网络节点一一对应；（ｃ）为本文最终提出的，具有弹性时空注意力机制的周期循环网络ＳＴＰＲＮＮ架构，注意到多个季节网络节点状态对应到同一个趋势网络节点．两种周期网络均可包含一个或多个季节网络（橙色箭头表示网络之间隐状态和记忆状态的传递，黑色箭头表示趋势网络和季节网络内部的信息传递）

式（２）即为带有固定周期对应关系的时空预测问题的基本定义．这类数据中的季节性信息显著强于趋势信息，如图４中（ｂ）、（ｃ）所示，由于以时空数据周期对应关系固定为基本假设，故可以直接使用历史周期中对应时间点的数据辅助预测．对于历史数据有两种不同的处理方法，一种如图４（ｂ）所示，同时建模短期临近数据的变化趋势，以及当前时刻与历史对应时刻的季节依赖关系；另外一种如图４（ｃ）所示，除提取上述两种特征外，同时学习历史周期数据中隐含的趋势信息．临近数据和历史数据均可使用循环网络建模其趋势项．

但考虑到固定的时空周期对应关系在实际应用中难以满足，对式（２）再次扩展，允许不同周期的不同元素在时间、空间上有弹性的对应关系，则有：犡^｛狋＋１：狋＋犓｝＝ａｒｇｍａｘ犡狋＋１，…，犡狋＋犓

狆（犡｛狋＋１：狋＋犓｝｜ＸＸ，犡｛狋－犑＋１：狋｝）

＝ａｒｇｍａｘ犡狋＋１，…，犡狋＋（

犓狆（犡狋＋１｜犡｛狋－犑＋１：狋｝，ＸＸ）·

∏犓

狀＝２狆（犡狋＋狀｜犡狋＋狀－１，ＸＸ）），

ＸＸ＝｛犡｛狋－犿犜－犑＋１：狋－犿犜＋犓｝｝犿１：犿２（３）以上即为本文核心———弹性周期时空预测模型

的基本框架．在预测未来某帧时，广泛考虑历史周期中的每个时空元素，由预测算法决定各元素对未来

影响的权重．同上，对于历史周期数据的处理也可根据是否对历史数据中的趋势项建模分为两种具体模型，分别对应图４（ｄ）和图４（ｅ）．图４（ｅ）为本文的ＳＴＰＲＮＮ模型的概率图结构．该模型分为三部分：（１）用循环网络提取历史趋势特征；（２）用另一循环网络提取短临趋势特征；（３）学习历史趋势到短临趋势的弹性季节对应关系．下面将从这三个方面讨论ＳＴＰＲＮＮ模型对应的结构，即季节网络、趋势网络、时空注意力模块．三者最终融合在统一的端到端训练的深度网络架构中．３２　季节网络

本文将提取历史趋势特征的循环网络命名为季节网络，由堆叠式的ＳＴＬＳＴＭ单元［３７］组成．上文中提到，季节性时空数据包含趋势项、季节项、随机项．本文对序列整体趋势项的处理同时考虑短临和长期的趋势信息，季节网络负责对历史周期数据内部的时空依赖关系建模，将提取到的长期的趋势信息以状态张量的形式通过自适应的时空注意力模块输入到对临近序列建模的另一个网络中．ＳＴＬＳＴＭ单元最突出的特点为可以曲折传递

的记忆状态犕，这一结构加深了循环网络深度，从而给模型带来了良好的捕捉短期变化的能力．如图５所示，本文中将沿用此结构，但用犕来指代暂存的季节记忆状态，对单个时间点的多层ＳＴＬＳＴＭ网络而言，季节记忆状态犕逐层更新并传递给后续的趋势网络．与此同时，季节网络单元保留仅沿时间方向传递的记忆状态犆，这种双重记忆机制使得季节网络能够更有效地捕捉历史数据的变化趋势．季节网络的结构如图５（ａ）所示，第犾层节点单元以观测

２９２计　　算　　机　　学　　报２０２０年

《计

算机

学报

》

图像或预测图像犡狋（犾＝１）或上一层的隐状态犎犾－１狋

（犾＞１）作为外部输入，并包含趋势记忆状态计算、季节记忆状态计算、双重记忆机制融合三部分．其中，趋势记忆状态犆犾狋的更新依赖于输入门犻狋、输入调节门犵狋和遗忘门犳狋，其状态转移方程为

犵狋＝ｔａｎｈ（犠狓犵犡狋＋犠犺犵犎犾狋－１＋犫犵），犻狋＝σ（犠狓犻犡狋＋犠犺犻犎犾狋－１＋犫犻），犳狋＝σ（犠狓犳犡狋＋犠犺犳犎犾狋－１＋犫犳），犆犾狋＝犳狋⊙犆犾狋－１＋犻狋⊙犵狋，

其中，σ表示Ｓｉｇｍｏｉｄ激活函数，和⊙分别表示卷积和点乘操作．

季节记忆状态犕犾狋的计算以当前时间点季节网络上一层或上一时间点最后一层的犕犾－１

狋为输入，并使用额外的一套门结构输入门犻′狋、输入调节门犵′狋、遗忘门犳′狋来控制状态信息的保留和删除，其状态转移方程为

犵′狋＝ｔａｎｈ（犠′狓犵犡狋＋犠犿犵犕犾－１狋＋犫′犵），犻′狋＝σ（犠′狓犻犡狋＋犠犿犻犕犾－１狋＋犫′犻），犳′狋＝σ（犠′狓犳犡狋＋犠犿犳犕犾－１狋＋犫′犳），犕犾狋＝犳′狋⊙犕犾－１狋＋犻′狋⊙犵′狋．在更新的隐状态犎犾狋时，首先计算调节趋势记忆

状态和季节记忆状态输出比例的输出门狅狋．时间、季节记忆状态的融合方程为

狅狋＝σ（犠狓狅犡狋＋犠犺狅犎犾狋－１＋犠犮狅犆犾狋＋犠犿狅犕犾狋＋犫０），

　　　　犎犾狋＝狅狋⊙ｔａｎｈ（犠１×１［犆犾狋，犕犾狋］）（４）上述公式中的所有隐状态和记忆状态的张量尺

寸均为犚狑×犺×犮，其中前两维为特征图的长和宽，最后一维为通道数．

此外，为充分利用数据中的周期性，本文提出的ＳＴＰＲＮＮ模型或根据数据特性用多路季节网络抽取多个不同周期（周期尺度或不相同）的历史数据中的季节趋势．３３　趋势网络

趋势网络承担着两个作用：其一，捕捉短临数据中的趋势变化；其二，融合季节网络传递来的历史数据特征．在本文早期实验中，尝试过直接将多路季节网络的预测结果输入简单的两层卷积网络做像素空间的融合．遗憾的是，这种在原始数据空间对周期信息的简单融合难以有效利用历史周期中隐含的时空特性，没有取得很好的效果．因此需要一种新的融合方式，在不固定对应关系的若干周期元素间自适应地提取有助于未来趋势预测的信息．基于以上考虑，

在趋势网络中，本文设计了一种专门面向时空季节数据的卷积循环网络单元ＳＴＰＬＳＴＭ（ＳｐａｔｉｏｔｅｍｐｏｒａｌＰｅｒｉｏｄｉｃＬＳＴＭ），在卷积网络的状态空间实现趋势特征与季节特征的深度融合．

首先考虑固定周期对应关系的趋势网络建模方式（其概率模型对应图５），如图５（ｂ）所示．在趋势网络中使用和季节网络相似的循环节点单元，并将趋势网络的隐状态和记忆状态与季节网络对应位置的隐状态和记忆状态直接相加，作为趋势网络每个节点的输入状态．可喜的是，这个模型相较仅采用趋势网络而忽略季节网络已经有了一定程度的预测准备性的提升．但该模型的最大弊端是没有考虑到各个周期的数据变化趋势可能存在一定的不同，即各周期的元素之间并不遵循严格的一一对应关系．

为此，本文在ＳＴＰＬＳＴＭ中尝试引入一种分配在各季节网络记忆状态上的在时间、空间维度都更加具有弹性的注意力机制，在预测未来某帧时，尽可能多地参考历史周期序列中的各个元素．图５（ｃ）展示了包含季节网络和基于ＳＴＰＬＳＴＭ趋势网络的ＳＴＰＲＮＮ的整体架构，本文通过在趋势网络中嵌入全新的时空注意力模块，实现不固定周期对应关系的时空周期特征的动态自适应融合．趋势网络和季节网络都被融合进一个端到端的训练架构，粗箭头表示网络之间隐状态和记忆状态的传递．这种状态空间上的连接方式使得趋势网络可以从季节网络中学习到历史数据中隐藏的趋势信息．ＳＴＰＬＳＴＭ的内部架构如图６所示，所有状态的更新都依赖于趋势状态和季节状态的有效融合．经过ＳＴＰＬＳＴＭ中的时空注意力模块处理后，趋势网络的隐状态和季节记忆状态转化为犎犾－１狋＝Ａｔｔ（犡狋１｛犾＝１｝，犎犾－１狋，｛犎犾狋′｛狆１｝｝，…），犕犾－１狋＝Ａｔｔ（犕犾－１狋，｛犕犾狋′｛狆１｝｝，…），

其中，Ａｔｔ（·）为时空注意力模块，将在后文中详细阐述．ＳＴＰＬＳＴＭ的趋势记忆状态传递方程为犵狋＝ｔａｎｈ（犠狓犵犎犾－１狋＋犠犺犵犎犾狋－１＋犫犵），犻狋＝σ（犠狓犻犎犾－１狋＋犠犺犻犎犾狋－１＋犫犻），犳狋＝σ（犠狓犳犎犾－１狋＋犠犺犳犎犾狋－１＋犫犳），犆犾狋＝犳狋⊙犆犾狋－１＋犻狋⊙犵狋．

季节记忆状态传递方程为犵′狋＝ｔａｎｈ（犠′狓犵犎犾－１狋＋犠犿犵犕犾－１狋＋犫′犵），犻′狋＝σ（犠′狓犻犎犾－１狋＋犠犿犻犕犾－１狋＋犫′犻），犳′狋＝σ（犠′狓犳犎犾－１狋＋犠犿犳犕犾－１狋＋犫′犳），犕犾狋＝犳′狋⊙犕犾－１狋＋犻′狋⊙犵′狋．

３９２２期张建晋等：面向季节性时空数据的预测式循环网络及其在城市计算中的应用

《计

算机

学报

》

趋势记忆状态与季节记忆状态的融合方程为狅狋＝σ（犠狓狅犎犾－１狋＋犠犺狅犎犾狋－１＋

犠犮狅犆犾狋＋犠犿狅犕犾狋＋犫０），　　　犎犾狋＝狅狋⊙ｔａｎｈ（犠１×１［犆犾狋，犕犾狋］）（５）其中，狆１，狆２，…表示季节网络的周期序号．｛犎犾狋′｛狆１｝｝和｛犕犾狋′｛狆１｝｝表示季节网络狆１从历史数据中抽取的隐状态和季节记忆状态，犾表示层数，狋′表示该节点在季节网络中的时间点，季节网络可能有多个，因此注意力模块允许多个季节网络状态输入．

图６　时空周期性长短时记忆单元（ＳＴＰＬＳＴＭ）架构图（灰色区域为级联的时空注意力模块，用于融合多个周期与当前周期的隐记忆状态和季节记忆状态，其中，ＳＡＴＴ表示空间注意力模块，ＴＡＴＴ表示时间注意力模块）

３４　时空注意力模块：时空周期特征的弹性融合如何在记忆状态空间做周期对应关系不固定的

特征融合呢？这里本文讨论三种时空注意力模块，分别是：传统的只对时序信息分配权重的注意力模块；通过将高维特征图延展成二维向量，对时间、空间信息统一分配注意力的混合注意力模块［４１］；以及本文中新提出的对时间、空间信息分别分配注意力的时空级联式注意力模块．

注意力模型的主要目的在于计算模块的各个输入对于模块输出的贡献度，主要通过计算输入与输出的相似性来实现．注意力模型中将一系列输入称之为值矩阵（Ｖａｌｕｅ），输出称之为目标矩阵（Ｔａｒｇｅｔ）．由于目标矩阵无法提前得到，因此往往使用与目标矩阵相关的一系列矩阵来替代目标矩阵，与值矩阵计算相似度，并称其为密钥矩阵（Ｋｅｙ）．下文中将分别用犝狋、｛犞狋′｝和犝狋表示密钥矩阵、值矩阵和目标矩阵，其中狋表示当前时刻．狋′表示历史数据中的某时刻．

３．４．１　时序注意力模型本文首先讨论仅对时间上的循环网络状态做注

意力分配，其基本思想是：学习输入序列的每一帧对生成序列的某一帧的不同程度的贡献．其经典架构如图７所示，犝狋为Ｓｅｑ２Ｓｅｑ模型中解码器（对应ＳＴＰＲＮＮ的趋势网络）在当前时刻的隐状态．犞狋′为Ｓｅｑ２Ｓｅｑ模型中编码器（对应ＳＴＰＲＮＮ的季节网络）的隐状态．α狋′为各个隐状态犞狋′到当前目标矩阵犝狋的可学习的权重，与解码器本时间点的隐状态犝狋相关．

图７　传统时序注意力模型

对于趋势网络中第犾层ＳＴＰＬＳＴＭ而言，在狋时刻，值矩阵｛犞狋′｝即为季节网络第犾层隐状态｛犎犾狋′｛狆｝｝和季节记忆状态｛犕犾狋′｛狆｝｝（狆表示季节网络的序号）．密钥矩阵犝狋使用趋势网络上一节点（上一层或上一个时间点最后一层）的隐状态犎犾－１狋和季节记忆状态犕犾－１

狋．目标矩阵犝狋即为趋势网络的ＳＴＰＬＳＴＭ节点注意力模块的输出隐状态犎犾－１狋和季节记忆状态犕犾－１狋．目标矩阵犝狋在狋时刻的计算公式如下：α狋′＝Ｓｏｆｔｍａｘ（｛ｔａｎｈ（犠狏犞狋′＋犠狊犝狋＋犫）｝狋′）犝狋＝Ａｔｔ（犝狋，｛犞狋′｝）＝∑狋′（犞狋′⊙α狋′）（６）

３．４．２　混合式时空注意力模块进一步地，本文尝试在时空周期预测网络中引入

混合式的时空注意力模块．以ＮｏｎＬｏｃａｌＢｌｏｃｋ［４１］为代表的混合式时空注意力模块典型结构如图８所示，其基本思想是将时间与空间同等对待，首先将密钥矩阵犝和值矩阵｛犞｝均展开成二维矩阵形式，即在值矩阵中时间、长和宽三维同等对待，组合到一维中．令展开后的密矩阵犝和值矩阵｛犞｝每一维分别为犝犻和犞犼．其后通过内积的方式分别计算每个犝犻与所有的犞犼相似度，并使用Ｓｏｆｔｍａｘ计算对应某个犝犻的每个犞犼的权重．具体公式如下：

犝ｆ狋＝ｆｌａｔ（犝狋），犞ｆ狋′＝ｆｌａｔ（｛犞狋′｝），犲狋狋′＝犝ｆ

狋×犞ｆ狋′，

α狋狋′＝Ｓｏｆｔｍａｘ（｛犲狋狋′｝狋′），

４９２计　　算　　机　　学　　报２０２０年

《计

算机

学报

》

犝狋＝Ａｔｔ（犝狋，｛犞狋′｝）＝∑狋′（犞狋′⊙α狋狋′）（７）上式的输出作为式（５）中的犎犾－１狋和犕犾－１狋输

入到ＳＴＰＲＮＮ趋势网络的对应节点中．然而，混合式的时空注意力模块直接将所有维度组合到同一维度，可能造成时空信息的混杂和丢失．实际上，时间和空间是有较大的差异性的，混合注意力模型对这一问题的处理过于直接，展平后的矩阵计算也会使计算量大大增加，一定程度上限制了可以处理的数据维度．

图８　混合式时空注意力模型

３．４．３　级联式时空注意力模块基于以上考虑，本文所提出的级联式时空注意

力模块分为空间注意力模块和时间注意力模块，分别计算时间上与空间上的季节网络各个记忆状态和趋势网络记忆状态的相似度，如图９所示．

图９　级联式时空注意力模型在ＳＴＰＲＮＮ模型中，密钥矩阵犝为犎犾－１

狋或犕犾－１狋；值矩阵｛犞狋′｝为｛犎犾狋′｛狆｝｝或｛犕犾狋′｛狆｝｝．隐状态犎和季节记忆状态犕将分别使用架构相同但参数独立的注意力模块进行计算．计算所得的目标矩阵，作为式（５）中的犎犾－１狋和犕犾－１狋输入到趋势网络的对应节点中．级联式时空注意力模块的具体计算公式如下：｛α狊犻狋′｝犻＝ＳｐａｃｅＡｔｔ（犝狋，犞狋′）＝Ｓｏｆｔｍａｘ（｛犲狊犻狋′｝犻）

＝Ｓｏｆｔｍａｘ（Ｃｏｎｖ１×１（［犝狋，犞狋′］）），｛α狋狋′｝狋′＝ＴｉｍｅＡｔｔ（犝狋，｛犞狋′⊙｛α犻狋′｝犻｝狋′）

＝Ｓｏｆｔｍａｘ（｛犲狋狋′｝狋′），犲狋狋′＝ｔａｎｈ（ｆｌａｔ（［犝狋，犞狋′⊙｛α犻狋′｝犻］）犠＋犫）犝狋＝Ａｔｔｅｎｔｉｏｎ（犝狋，｛犞狋′｝）＝∑狋′（犞狋′⊙｛α狊犻狋′｝犻⊙α狋狋′）（８）

在具体实现上，本文依照上述公式首先将值密钥犝狋拆分为１×１×犮的矩阵，并与值矩阵｛犞狋′｝对应

位置上的１×１×犮的矩阵计算相似度，最终取得犺×狑个相似度值，使用Ｓｏｆｔｍａｘ函数计算每个位置的权重α狊犻狋′．上述机制即为空间注意力机制．在取得空间权重犲狊犻狋′后将其与值矩阵犞狋相乘，并与密钥矩阵犝狋整体计算相似度，计算出所有值矩阵｛犞狋′｝的相似度之后，使用Ｓｏｆｔｍａｘ计算出每个值矩阵｛犞狋′｝的权重，即为时间权重α狋′．上述机制即为时间注意力机制，当模型具有多个季节网络时，所有季节网络的特征都会参与到时间注意力机制中的Ｓｏｆｔｍａｘ计算中．最终对于时间狋′的某一个值矩阵｛犞狋′｝的每一个位置上，具有空间权重α狊犻狋′和时间权重α狋狋′两个权重．每个值矩阵｛犞狋′｝与对应权重相乘后相加，即可取得目标矩阵．３．４．４　小结

对于带有季节特征的时空数据，传统的时序注意力模型不能处理空间信息；混合式的时空注意力模型由于时空信息的混杂会造成预测结果的下降和计算量的增加；级联式的时空注意力模型将时间信息和空间信息分开处理，能够更完整地捕捉不同周期的数据在时间与空间维度上的相关性．

４　实验结果与分析本节中将首先介绍两个城市计算数据集和一个

气候数据集、实验细节和对比方法，然后将从准确性指标和生成图像的质量上分析ＳＴＰＲＮＮ模型的预测结果．４１　实验环境和数据集

数据集．本文选用两个城市计算中常用的以小时为单位的交通流量数据集ＴａｘｉＢＪ和ＢｉｋｅＮＹＣ，以及一个以天为单位气候变化数据集ＧＨＣＮＤ（ＧｌｏｂａｌＨｉｓｔｏｒｉｃａｌＣｌｉｍａｔｏｌｏｇｙＮｅｔｗｏｒｋＤａｉｌｙ）［４２］．

ＴａｘｉＢＪ数据集包括北京市交通流量的数据，由ＧＰＳ监视器以３０ｍｉｎ为间隔连续采集，以热点图形式呈现为３２×３２×２的双通道热度图，其两个通道分别表示某区域该时刻交通流量的流入、流出．本文采用ＤｅｅｐＳＴ论文中的训练、测试数据划分方法［３８］．注意到，在数据输入前，首先将其归一化到［０，１］区间内．

ＢｉｋｅＮＹＣ数据集包括纽约市的自行车运动轨迹，其采集时间间隔为１ｈ，每一帧为１６×８×２的热度图．使用数据集后１０天的数据作为测试数据，其余为训练数据．

ＧＨＣＮＤ数据集包含全球近二百年来所有气象检测站每天汇报的最高气温、最低气温、相对湿度

５９２２期张建晋等：面向季节性时空数据的预测式循环网络及其在城市计算中的应用

《计

算机

学报

》

等气象信息．由于该数据在空间上较为稀疏，因此本实验中使用美国本土地区１８３６～２０１７年每日的最高气温数据，并以１９８０年为界限划分训练集与测试集．将每一天的数据归一化为６４×６４大小的像素强度在［０，１］区间内的连续值图像．

三个数据集规模如表２所示．表２　数据集的规模

数据集ＴａｘｉＢＪＢｉｋｅＮＹＣＧＨＣＮＤ维度３２×３２×２１６×８×２６４×６４×１训练集１５２９１３５４４８０７５测试集１３４４６７２２６７０

在本文实验中，将趋势网络和季节网络同时在一个端到端的架构中进行训练．特别说明的是，为了减少ＴａｘｉＢＪ数据集的训练时间和内存占用，实验中将每个３２×３２×２的图像转换成１６×１６×８的张量．ＳＴＰＲＮＮ中每一个隐状态和记忆状态的维度均为６４．本文中所有模型均以待预测数据和网络输出的犔２损失函数为训练目标，并使用初始学习率为０．００１的Ａｄａｍ优化器［４３］进行优化．在ＴａｘｉＢＪ和ＢｉｋｅＮＹＣ数据集上均训练３００００次迭代．每当训练集遍历过一遍后会将样本顺序打乱并重新开始读取．每次迭代的批大小为８．所有的实验均使用ＴｅｎｓｏｒＦｌｏｗ实现．４２　对比算法

ＣｏｎｖＬＳＴＭ［３２］将传统ＬＳＴＭ中的矩阵相乘操作替换成卷积操作，实现了时空统一建模，为本文的时空预测方法提供了基础结构．ＦＲＮＮ［４４］同样基于卷积循环网络，在２０１８年

由Ｏｌｉｕ等人提出，在ＭｏｖｉｎｇＭＮＩＳＴ这一人工构造的数据集上取得了当前最优的预测准确率．

ＤｅｅｐＳＴ［３８］最早的针对交通流量预测问题设计的深度网络模型之一．它完全基于ＣＮＮ，在每一个时刻，使用前４帧预测未来１帧，滚动预测．ＳＴＲｅｓＮｅｔ［３９］是ＤｅｅｐＳＴ的改进版本，相比

ＤｅｅｐＳＴ，在ＴａｘｉＢＪ和ＢｉｋｅＮＹＣ数据集上对预测准确性的提升效果显著，是本文主要对比的方法．

ＶＰＮ［３６］在人工构造的数据集与环境相对可控的机械臂数据集上取得了当前最优的预测效果．ＰｒｅｄＲＮＮ［３７］是本文的季节网络和趋势网络的

基础模型．本文对比该模型证明在交通流量预测问题上有效利用时空季节信息的必要性．ＰｒｅｄＲＮＮＥＮＳＥＭＢＬＥ使用１×１卷积将两个

ＰｒｅｄＲＮＮ的输出进行融合．上文中提到，ＳＴＰＲＮＮ

对于周期性信息的使用方式是一种深度融合的方式，为了证明这种融合方式的必要性．

传统的时序预测算法包括ＡＲＩＭＡ、ＳＡＲＩＭＡ及ＶＡＲ模型，这些模型在传统时间序列预测任务上效果较好，本文也将这些算法纳入对比实验中．４３　算法性能对比实验４．３．１　ＴａｘｉＢＪ数据集实验结果

与ＤｅｅｐＳＴ、ＳＴＲｅｓＮｅｔ等方法不同，本文方法更加关注未来多帧的预测．每一个序列包含两个分序列：用于趋势网络的６个连续帧（３帧输入，３帧输出）；用于季节网络的６个连续帧，且这６帧为趋势网络输入序列的一周之前的数据．

实验结果如图１０所示，ＳＴＰＲＮＮ未来３帧的犚犕犛犈均为所有对比模型中最低，更低的犚犕犛犈指标表示更精确的预测效果．注意到ＳＴＲｅｓＮｅｔ模型在多帧预测问题上，需要使用上一时刻预测的结果作为新的输入进行滚动预测，而在网络内部没有记忆单元存储时序信息，因此后两帧的预测结果较差．

图１０　ＴａｘｉＢＪ测试集上逐帧犚犕犛犈结果折线图

图１１展示了随机采样的一条时空预测样例的入流量热度图．为了方便对比各算法的预测结果，本文将待预测图像与网络输出的差值可视化，黄色区域差值较高，代表预测误差较大，蓝色区域差值较低，代表预测较为准确．明显地，ＣｏｎｖＬＳＴＭ模型和ＦＲＮＮ模型对于图像右上角区域的预测结果较差，且在其他区域也有较多差异较高的区域出现；ＰｒｅｄＲＮＮ模型对于图像的中心区域的预测出现了较大误差；而本文提出的ＳＴＰＲＮＮ模型的预测结果相对更为准确，尤其对于较难预测的图像中心区域和右上区域均有较明显的提升．不难看出，使用ＴｒｅｎｄＮｅｔ捕捉历史数据中的周期性预测信息可以辅助模型对临近趋势做出准确预测．

６９２计　　算　　机　　学　　报２０２０年

《计

算机

学报

》

图１１　ＴａｘｉＢＪ测试集中预测结果实例（其中差值表示预测结果与相应时间点的真实值的差的绝对值）

由于ＳＴＰＲＮＮ实际上处理了更长的序列，因此训练用时会稍有增加，但这并未增加过多的测试用时，如表３所示，对已训练完备的模型的执行效率影响不大．注意到，由于季节网络和趋势网络共享参数，因此ＳＴＰＲＮＮ实际上仅仅比ＰｒｅｄＲＮＮ［３２］模型仅多出了时空注意力模块的参数（只占总参数量的约１０％）．本文强调，一方面，在实际训练时，两个模型所占用的内存差异不大（内存差异是十分重要的，决定着可处理的最大分辨率）；另一方面，参数量的增加并非预测准确性提升的主要原因．同样的，

表３　犛犜犘犚犖犖与犘狉犲犱犚犖犖训练与测试效率对比模型参数量内存占用／ＭＢ运行时间／（ｓ／ｂａｔｃｈ）

ＰｒｅｄＲＮＮ（训练）１．５３６×１０６４４５５０．８７ＳＴＰＲＮＮ（训练）１．６９３×１０６５０２０３．１１ＰｒｅｄＲＮＮ（测试）１．５３６×１０６７２５０．４８ＳＴＰＲＮＮ（测试）１．６９３×１０６７３５０．７３

从表３中可以看出，由于免去了梯度计算等操作，ＳＴＰＲＮＮ模型在测试所需的运行时间与ＰｒｅｄＲＮＮ模型差异不大，这就意味着ＳＴＰＲＮＮ模型不会对实用时的效率造成过多的影响．

对比实验１．深度融合方法的有效性．为了证明本文提出的深度融合方法的有效性，本文额外设计了一组对照实验，使用两个卷积层融合季节网络和趋势网络的每个时间点的输出．结果如图１０中黄线（ＰｒｅｄＲＮＮＥＮＳＥＭＢＬＥ）所示．该模型相较ＰｒｅｄＲＮＮ在临近的未来时间点上表现出了预测准确性上的提升，但是其预测能力仍弱于最终的ＳＴＰＲＮＮ模型，说明了在不同网络层级上深度融合时空特征是很有必要的．

对比实验２．时间注意力与空间注意力双模块的有效性．为了验证模型中时间注意力与空间注意力双模块的有效性，本文设计了另一组对照实验，如表４所示，具体比较：（１）在本文所提出的ＳＴＰＬＳＴＭ中固定周期对应关系，不使用注意力模块，历史数据所产生的犎／犕直接与当前对应时间节点的犎／犕相加，作为下一节点的输入；（２）仅仅使用时间或空间注意力模块；（３）使用混合时空注意力模块［４１］；（４）使用本文所提出的时空级联注意力模块．在表４的结果中可以看出采用时空级联双注意力模块可以明显提升预测的准确率．时间注意力模块和空间注意力模块实际上增加了网络的参数量，错误的连接方式反而会造成网络难以训练，因此在表４的结果中，混合注意力模块的结果反而不如无注意力模块，这也侧面印证了级联注意力模块的重要性．表４　对比实验２：不同的注意力模块对预测结果的

影响（评测指标：犕犛犈）模型第１帧第２帧第３帧

ＳＴＰＲＮＮ（无注意力模块）１５．２０１７．８０１９．５５ＳＴＰＲＮＮ（时间注意力）１５．０７１７．４８１９．１９ＳＴＰＲＮＮ（空间注意力）１６．０３１７．４９１９．３２ＳＴＰＲＮＮ（混合注意力）１６．２５１７．９７１９．８３犛犜犘犚犖犖（级联注意力）１５０３１７４３１９１７

对比实验３．使用循环网络建模历史数据趋势信息的有效性、对多周期特征在记忆状态空间做特征融合的有效性．在本文的早期实验中，考虑过直接将历史数据输入到趋势网络中，不经过季节网络处理，如图２中（ｂ）和（ｄ）所示．实验包括使用时空注意

７９２２期张建晋等：面向季节性时空数据的预测式循环网络及其在城市计算中的应用

《计

算机

学报

》

力模块和不使用注意力模块两类．在不使用注意力模块时，直接将历史数据中对应时间的图像与当前图像在通道维度连结；使用时空注意力模块时则需要将所有历史图像输入注意力模块，并将结果与当前图像连结．实验结果如表５所示．可以发现此种方法与基础模型ＰｒｅｄＲＮＮ实验结果相近，这说明了使用循环网络建模季节性历史数据中的趋势信息，并在具有时空依赖关系的记忆状态空间做周期趋势特征融合的重要性．表５　对比实验３：使用循环网络建模历史数据趋势信息的有

效性与对多周期特征融合的有效性（评测指标：犕犛犈）模型第１帧第２帧第３帧

ＰｒｅｄＲＮＮ１６．０４１９．２３２０．１４ＳＴＰＲＮＮ（图２（ｂ））（无季节，无注意力）１６．０９１９．２５２０．０９ＳＴＰＲＮＮ（图２（ｄ））（无季节，有注意力）１６．０５１９．２１１９．６４

犛犜犘犚犖犖１５０３１７４３１９１７

对比实验４．季节网络的输入数据的时间跨度对于模型效果的影响．上文中提到，ＳＴＰＲＮＮ模型需要额外输入一定时间跨度的历史数据以捕捉时空序列数据中的周期性特征．当时间跨度为０时，ＳＴＰＲＮＮ模型退化为ＰｒｅｄＲＮＮ模型．为了验证所使用的历史数据的时间跨度对于模型效果的影响，本文依次将历史数据的时间跨度设置为２、５、６、１０．从表６的实验结果可见，在时间跨度较小时，模型不能从历史数据中捕捉到足够的季节性特征用于辅助预测．当时间跨度过长时，会造成模型效率降低，难以收敛．经过若干次实验，本文选择６作为季节网络默认的输入数据时间跨度．表６　对比实验４：犛犜犘犚犖犖季节网络不同的输入数据时间

跨度对预测结果的影响（评测指标：犕犛犈）季节网络时间跨度第１帧第２帧第３帧

２１６．５２１８．７７２０．０２５１６．０６１９．０６１９．９１６１５０３１７４３１９１７１０１５．４７１８．６４１９．２３

对比实验５．单帧预测效果对比．由于大部分已有方法（包括传统模型以及ＳＴＲｅｓＮｅｔ模型）在其原始实验中均只考虑未来１帧的预测结果，因此本文也同样使用ＳＴＰＲＮＮ模型进行单帧预测，并与已有方法对比．与前文实验不同，此处仅使用未来１帧作为表７中所有方法的训练目标，其中，ＳＴＰＲＮＮ相比其他模型单帧预测误差更低．

表７　在犜犪狓犻犅犑数据集上仅预测未来１帧的犚犕犛犈结果比较（所有的模型都以预测未来１帧为目标进行训练）模型犚犕犛犈模型犚犕犛犈ＡＲＩＭＡ２２．７８ＶＰＮ１６．７５ＳＡＲＩＭＡ２６．８８ＦＲＮＮ１９．２１ＶＡＲ２２．８８ＰｒｅｄＲＮＮ１５．６３ＤｅｅｐＳＴ１８．１８ＰｒｅｄＲＮＮＥＮＳＥＭＢＬＥ１５．５４ＳＴＲｅｓＮｅｔ１６．５９犛犜犘犚犖犖１５１９ＣｏｎｖＬＳＴＭ１９．９８

４．３．２　ＢｉｋｅＮＹＣ数据集实验结果在ＢｉｋｅＮＹＣ数据集上的实验设置与ＴａｘｉＢＪ数

据集相似，仍然使用序列中的３帧作为趋势网络的输入，３帧作为趋势网络的预测，取一周前的连续６帧数据作为季节网络的输入．该数据集上未来３帧的预测结果如图１２所示．从数值结果上看，ＳＴＰＲＮＮ将犚犕犛犈指标降低了０．３，取得了比其他模型更好的预测效果．

图１２　ＢｉｋｅＮＹＣ测试集上逐帧犚犕犛犈结果折线图

除犚犕犛犈指标之外，本文使用气象预报中常用的ＣＳＩ指数（ＣｒｉｔｉｃａｌＳｕｃｃｅｓｓＩｎｄｅｘ）对预测结果进行评测．与召回率（狉犲犮犪犾犾）及精确率（狆狉犲犮犻狊犻狅狀）类似，ＣＳＩ的计算首先需要选择一个阈值狇，此处，本文分别以像素强度１０、３０和５０为该阈值（像素强度范围为０～２５５）．本文定义：犜犘：事件真实发生且预测成功的频次，即在真

实图像与预测图像中均大于狇的像素数．犉犖：事件真实发生但未预测成功的频次，即在

真实图像中大于狇且在预测图像中小于狇的像素数．犉犘：事件未发生但预测发生的频次，即在真实

图像中小于狇且在预测图像中大于狇的像素数．犜犖：事件未发生且未预测发生的频次，即在真

实图像与预测图像中均小于狇的像素数．继而定义ＣＳＩ＝犜犘

犜犘＋犉犖＋犉犘．注意到交通流

８９２计　　算　　机　　学　　报２０２０年

《计

算机

学报

》

量数据包括入流量和出流量两个通道，计算ＣＳＩ时需要分别统计两通道的犜犘、犉犘、犜犖和犉犖之和．

表８展示了未来３帧的平均ＣＳＩ：ＳＴＰＲＮＮ模型在ＣＳＩ数值上相比于其他模型有２％～７％的提升．每一帧ＣＳＩ以折线图的形式在图１３中给出．由于交通流量预测中更注重对于高密度区域的预测（即强调犜犘），同时尽量减少未命中（犉犖）和误报

（犉犘）的数量，而低密度区域（犜犖）的预测作用较小，因此ＣＳＩ的提升在实际应用中具有更重要的意义．表８　在犅犻犽犲犖犢犆数据集上预测３帧的犆犛犐结果比较模型ＣＳＩ１０ＣＳＩ３０ＣＳＩ５０ＦＲＮＮ０．９１０．７４０．３９ＰｒｅｄＲＮＮ０．９２０．７３０．３０犛犜犘犚犖犖０９４０８００５４

图１３　ＢｉｋｅＮＹＣ测试集上ＣＳＩ结果

单帧预测效果对比．同上，由于大部分已有方法（包括传统模型以及ＳＴＲｅｓＮｅｔ模型）在其原始实验中均只考虑未来１帧的预测结果，因此本文也同样使用ＳＴＰＲＮＮ模型进行单帧预测，并与已有方法对比．实验结果如表９所示，ＳＴＰＲＮＮ模型的单帧预测误差最小．表９　在犅犻犽犲犖犢犆数据集上预测１帧的犚犕犛犈结果比较

（所有的模型都以预测１帧为目标进行训练）模型犚犕犛犈模型犚犕犛犈ＡＲＩＭＡ１０．０７ＣｏｎｖＬＳＴＭ７．１１ＳＡＲＩＭＡ１０．５６ＶＰＮ６．１７ＶＡＲ９．９２ＦＲＮＮ５．９９ＤｅｅｐＳＴ７．４３ＰｒｅｄＲＮＮ６．０２ＳＴＲｅｓＮｅｔ６．３７犛犜犘犚犖犖５７７

４．３．３　ＧＨＣＮＤ数据集实验结果ＧＨＣＮＤ数据集获取自美国国家海洋和大气管

理局，每日的最高气温会呈现以年为周期的季节性．因此本文使用待预测数据过去一年相近时间段的历史数据作为历史周期数据，具体来说，本文使用滑动窗口截取序列，每个序列包括８个连续帧（４帧输入，４帧输出），并使用一年前相同日期及其邻近８天的历史数据作为季节网络的输入．实验结果如表１０表１０　犌犎犆犖犇数据集上预测４帧的犚犕犛犈结果比较模型第１帧第２帧第３帧第４帧ＦＲＮＮ１．７７２．０８２．２６２．３８ＰｒｅｄＲＮＮ１．５０１．７９１．９６２．０５犛犜犘犚犖犖１４５１７７１９２２００

所示，ＳＴＰＲＮＮ模型将犚犕犛犈指标降低了０．０５左右，取得了比其他模型更好的预测效果．

５　总结及未来研究方向本文提出了一种针对季节性时空数据建模的预

测式深度神经网络模型，称为时空周期性循环神经网络（ＳＴＰＲＮＮ）．该模型有两个特色，其一，其核心为周期性长短时记忆单元（ＳＴＰＬＳＴＭ），支持趋势网络（建模短临趋势项）和季节网络（建模长期季节项）在ＳＴＰＲＮＮ记忆状态空间上的深度融合．其二，本文创新性地在ＳＴＰＲＮＮ框架下讨论了三种注意力模块，最终设计了时间、空间级联式的注意力模块，使得模型能够自动从历史时空数据中寻找最相似的季节趋势，从而能够更加弹性地融合短临趋势特征和长期季节特征．

本文证明以上方法在两个标准交通流量数据集和一个气候变化数据集上取得了当前最高的预测准确率，在城市计算中有很大的应用前景．此外，本文所提出的多路循环处理模型以及级联式的注意力模块经过一些针对性的改进，为解决其他带有季节特征的多变量时序数据（ＭｕｌｔｉｖａｒｉａｔｅＴｉｍｅＳｅｒｉｅｓ）的预测问题提供了思路．致　谢　感谢国家自然科学基金项目（６１７７２２９９，７１６９０２３１，６１６７２３１３）的支持．感谢《计算机学报》编辑部和评审专家的宝贵意见！

９９２２期张建晋等：面向季节性时空数据的预测式循环网络及其在城市计算中的应用

《计

算机

学报

》

参考文献

［１］ＷａｎｇＺｉＦａ，ＷｕＱｉＺｈｏｎｇ，ＧｂａｇｕｉｄｉＡ，ｅｔａｌ．ＥｎｓｅｍｂｌｅａｉｒｑｕａｌｉｔｙｍｕｌｔｉｍｏｄｅｌｆｏｒｅｃａｓｔｓｙｓｔｅｍｆｏｒＢｅｉｊｉｎｇ（ＥＭＳＢｅｉｊｉｎｇ）：Ｍｏｄｅｌｄｅｓｃｒｉｐｔｉｏｎａｎｄｐｒｅｌｉｍｉｎａｒｙａｐｐｌｉｃａｔｉｏｎ．ＪｏｕｒｎａｌｏｆＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ），２００９，１（１）：１９２６（ｉｎＣｈｉｎｅｓｅ）（王自发，吴其重，ＧｂａｇｕｉｄｉＡ等．北京空气质量多模式集成预报系统的建立及初步应用．南京信息工程大学学报：自然科学版，２００９，１（１）：１９２６）

［２］ＦａｎＺ，ＳｏｎｇＸ，ＳｈｉｂａｓａｋｉＲ，ｅｔａｌ．ＣｉｔｙＭｏｍｅｎｔｕｍ：Ａｎｏｎｌｉｎｅａｐｐｒｏａｃｈｆｏｒｃｒｏｗｄｂｅｈａｖｉｏｒｐｒｅｄｉｃｔｉｏｎａｔａｃｉｔｙｗｉｄｅｌｅｖｅｌ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１５ＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＰｅｒｖａｓｉｖｅａｎｄＵｂｉｑｕｉｔｏｕｓＣｏｍｐｕｔｉｎｇ．ＮｅｗＹｏｒｋ，ＵＳＡ，２０１５：５５９５６９

［３］ＨｏａｎｇＭＸ，ＺｈｅｎｇＹ，ＳｉｎｇｈＡＫ．ＦＣＣＦ：Ｆｏｒｅｃａｓｔｉｎｇｃｉｔｙｗｉｄｅｃｒｏｗｄｆｌｏｗｓｂａｓｅｄｏｎｂｉｇｄａｔａ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２４ｔｈＡＣＭＳＩＧＳＰＡＴＩＡＬＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｄｖａｎｃｅｓｉｎＧｅｏｇｒａｐｈｉｃＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ．ＮｅｗＹｏｒｋ，ＵＳＡ，２０１６：ＡｒｔｉｃｌｅＮｏ．６

［４］ＨｏｐｆｉｅｌｄＪＪ．Ｎｅｕｒａｌｎｅｔｗｏｒｋｓａｎｄｐｈｙｓｉｃａｌｓｙｓｔｅｍｓｗｉｔｈｅｍｅｒｇｅｎｔｃｏｌｌｅｃｔｉｖｅｃｏｍｐｕｔａｔｉｏｎａｌａｂｉｌｉｔｉｅｓ．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，１９８２，７９（８）：２５５４２５５８

［５］ＲｏｂｉｎｓｏｎＴ，ＦａｌｌｓｉｄｅＦ．Ａｒｅｃｕｒｒｅｎｔｅｒｒｏｒｐｒｏｐａｇａｔｉｏｎｎｅｔｗｏｒｋｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍ．ＣｏｍｐｕｔｅｒＳｐｅｅｃｈ＆Ｌａｎｇｕａｇｅ，１９９１，５（３）：２５９２７４

［６］ＣｈｏＫ，ＶａｎＭｅｒｒｉｎｂｏｅｒＢ，ＢａｈｄａｎａｕＤ，ｅｔａｌ．Ｏｎｔｈｅｐｒｏｐｅｒｔｉｅｓｏｆｎｅｕｒａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ：Ｅｎｃｏｄｅｒｄｅｃｏｄｅｒａｐｐｒｏａｃｈｅｓ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１４０９．１２５９，２０１４

［７］ＣｈｏＫ，ＶａｎＭｅｒｒｉｅｎｂｏｅｒＢ，ＧｕｌｃｅｈｒｅＣ，ｅｔａｌ．ＬｅａｒｎｉｎｇｐｈｒａｓｅｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｕｓｉｎｇＲＮＮｅｎｃｏｄｅｒｄｅｃｏｄｅｒｆｏｒｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｄｏｈａ，Ｑａｔａｒ，２０１４：１７２４１７３４

［８］ＢａｈｄａｎａｕＤ，ＣｈｏＫ，ＢｅｎｇｉｏＹ．Ｎｅｕｒａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎｂｙｊｏｉｎｔｌｙｌｅａｒｎｉｎｇｔｏａｌｉｇｎａｎｄｔｒａｎｓｌａｔｅ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１４０９．０４７３，２０１４

［９］ＨｏｃｈｒｅｉｔｅｒＳ，ＳｃｈｍｉｄｈｕｂｅｒＪ．Ｌｏｎｇｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ．ＮｅｕｒａｌＣｏｍｐｕｔａｔｉｏｎ，１９９７，９（８）：１７３５１７８０

［１０］ＳｕｔｓｋｅｖｅｒＩ，ＶｉｎｙａｌｓＯ，ＬｅＱＶ．Ｓｅｑｕｅｎｃｅｔｏｓｅｑｕｅｎｃｅｌｅａｒｎｉｎｇｗｉｔｈｎｅｕｒａｌｎｅｔｗｏｒｋｓ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｍｏｎｔｒéａｌ，Ｃａｎａｄａ，２０１４：３１０４３１１２

［１１］ＷｅｒｂｏｓＰＪ．Ｇｅｎｅｒａｌｉｚａｔｉｏｎｏｆｂａｃｋｐｒｏｐａｇａｔｉｏｎｗｉｔｈａｐｐｌｉｃａｔｉｏｎｔｏａｒｅｃｕｒｒｅｎｔｇａｓｍａｒｋｅｔｍｏｄｅｌ．ＮｅｕｒａｌＮｅｔｗｏｒｋｓ，１９８８，１（４）：３３９３５６

［１２］ＷｉｌｌｉａｍｓＲＪ，ＺｉｐｓｅｒＤ．Ｇｒａｄｉｅｎｔｂａｓｅｄｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｓｆｏｒｒｅｃｕｒｒｅｎｔｎｅｔｗｏｒｋｓａｎｄｔｈｅｉｒｃｏｍｐｕｔａｔｉｏｎａｌｃｏｍｐｌｅｘｉｔｙ／／ＣｈａｕｖｉｎＹ，ＲｕｍｅｌｈａｒｔＤＥｅｄｓ．ＢａｃｋＰｒｏｐａｇａｔｉｏｎ：Ｔｈｅｏｒｙ，ＡｒｃｈｉｔｅｃｔｕｒｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ．Ｈｉｌｌｓｄａｌｅ，Ｎ．Ｊ．：ＬａｗｒｅｎｃｅＥｒｌｂａｕｍＰｕｂｌｉｓｈｅｒｓ，１９９５：４３３４８６

［１３］ＳｒｉｖａｓｔａｖａＮ，ＭａｎｓｉｍｏｖＥ，ＳａｌａｋｈｕｄｉｎｏｖＲ．ＵｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇｏｆｖｉｄｅｏｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｕｓｉｎｇＬＳＴＭｓ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．Ｌｉｌｌｅ，Ｆｒａｎｃｅ，２０１５：８４３８５２

［１４］ＬｅＣｕｎＹ，ＢｏｓｅｒＢ，ＤｅｎｋｅｒＪＳ，ｅｔａｌ．Ｂａｃｋｐｒｏｐａｇａｔｉｏｎａｐｐｌｉｅｄｔｏｈａｎｄｗｒｉｔｔｅｎｚｉｐｃｏｄｅｒｅｃｏｇｎｉｔｉｏｎ．ＮｅｕｒａｌＣｏｍｐｕｔａｔｉｏｎ，１９８９，１（４）：５４１５５１

［１５］ＫｒｉｚｈｅｖｓｋｙＡ，ＳｕｔｓｋｅｖｅｒＩ，ＨｉｎｔｏｎＧＥ．ＩｍａｇｅＮｅｔｃｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．ＬａｋｅＴａｈｏｅ，ＵＳＡ，２０１２：１０９７１１０５

［１６］ＳｉｍｏｎｙａｎＫ，ＺｉｓｓｅｒｍａｎＡ．Ｖｅｒｙｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｌａｒｇｅｓｃａｌｅｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１４０９．１５５６，２０１４

［１７］ＳｚｅｇｅｄｙＣ，ＬｉｕＷ，ＪｉａＹ，ｅｔａｌ．Ｇｏｉｎｇｄｅｅｐｅｒｗｉｔｈｃｏｎｖｏｌｕｔｉｏｎｓ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｂｏｓｔｏｎ，ＵＳＡ，２０１５：１９

［１８］ＨｅＫ，ＺｈａｎｇＸ，ＲｅｎＳ，ｅｔａｌ．Ｄｅｅｐｒｅｓｉｄｕａｌｌｅａｒｎｉｎｇｆｏｒｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．ＬａｓＶｅｇａｓ，ＵＳＡ，２０１６：７７０７７８

［１９］ＨｕａｎｇＧ，ＬｉｕＺ，ＶａｎｄｅｒＭａａｔｅｎＬ，ｅｔａｌ．Ｄｅｎｓｅｌｙｃｏｎｎｅｃｔｅｄｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｈａｗａｉｉ，ＵＳＡ，２０１７：４７００４７０８

［２０］ＶａｎｄｅｎＯｏｒｄＡ，ＫａｌｃｈｂｒｅｎｎｅｒＮ，ＥｓｐｅｈｏｌｔＬ，ｅｔａｌ．ＣｏｎｄｉｔｉｏｎａｌｉｍａｇｅｇｅｎｅｒａｔｉｏｎｗｉｔｈＰｉｘｅｌＣＮＮｄｅｃｏｄｅｒｓ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｂａｒｃｅｌｏｎａ，Ｓｐａｉｎ，２０１６：４７９０４７９８

［２１］ＶａｎｄｅｎＯｏｒｄＡ，ＤｉｅｌｅｍａｎＳ，ＺｅｎＨ，ｅｔａｌ．ＷａｖｅＮｅｔ：Ａｇｅｎｅｒａｔｉｖｅｍｏｄｅｌｆｏｒｒａｗａｕｄｉｏ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１６０９．０３４９９，２０１６

［２２］ＹｕＦ，ＫｏｌｔｕｎＶ．Ｍｕｌｔｉｓｃａｌｅｃｏｎｔｅｘｔａｇｇｒｅｇａｔｉｏｎｂｙｄｉｌａｔｅｄｃｏｎｖｏｌｕｔｉｏｎｓ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１５１１．０７１２２，２０１５

［２３］ＸｕＺ，ＷａｎｇＹ，ＬｏｎｇＭ，ｅｔａｌ．ＰｒｅｄＣＮＮ：Ｐｒｅｄｉｃｔｉｖｅｌｅａｒｎｉｎｇｗｉｔｈｃａｓｃａｄｅｃｏｎｖｏｌｕｔｉｏｎｓ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．Ｓｔｏｃｋｈｏｌｍ，Ｓｗｅｄｅｎ，２０１８：２９４０２９４７

［２４］ＤｅｎｔｏｎＥＬ，ＣｈｉｎｔａｌａＳ，ＦｅｒｇｕｓＲ．ＤｅｅｐｇｅｎｅｒａｔｉｖｅｉｍａｇｅｍｏｄｅｌｓｕｓｉｎｇａＬａｐｌａｃｉａｎｐｙｒａｍｉｄｏｆａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｍｏｎｔｒéａｌ，Ｃａｎａｄａ，２０１５：１４８６１４９４

［２５］ＧｏｏｄｆｅｌｌｏｗＩ，ＰｏｕｇｅｔＡｂａｄｉｅＪ，ＭｉｒｚａＭ，ｅｔａｌ．Ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｓ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｍｏｎｔｒéａｌ，Ｃａｎａｄａ，２０１４：２６７２２６８０

［２６］ＭａｔｈｉｅｕＭ，ＣｏｕｐｒｉｅＣ，ＬｅＣｕｎＹ．Ｄｅｅｐｍｕｌｔｉｓｃａｌｅｖｉｄｅｏｐｒｅｄｉｃｔｉｏｎｂｅｙｏｎｄｍｅａｎｓｑｕａｒｅｅｒｒｏｒ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１５１１．０５４４０，２０１５

［２７］ＶｏｎｄｒｉｃｋＣ，ＰｉｒｓｉａｖａｓｈＨ，ＴｏｒｒａｌｂａＡ．Ｇｅｎｅｒａｔｉｎｇｖｉｄｅｏｓｗｉｔｈｓｃｅｎｅｄｙｎａｍｉｃｓ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｂａｒｃｅｌｏｎａ，Ｓｐａｉｎ，２０１６：６１３６２１

００３计　　算　　机　　学　　报２０２０年

《计

算机

学报

》

［２８］ＴｕｌｙａｋｏｖＳ，ＬｉｕＭＹ，ＹａｎｇＸ，ｅｔａｌ．ＭｏＣｏＧＡＮ：Ｄｅｃｏｍｐｏｓｉｎｇｍｏｔｉｏｎａｎｄｃｏｎｔｅｎｔｆｏｒｖｉｄｅｏｇｅｎｅｒａｔｉｏｎ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．ＳａｌｔＬａｋｅＣｉｔｙ，ＵＳＡ，２０１８：１５２６１５３５

［２９］ＤｏｎａｈｕｅＪ，ＡｎｎｅＨｅｎｄｒｉｃｋｓＬ，ＧｕａｄａｒｒａｍａＳ，ｅｔａｌ．Ｌｏｎｇｔｅｒｍｒｅｃｕｒｒｅｎｔｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｖｉｓｕａｌｒｅｃｏｇｎｉｔｉｏｎａｎｄｄｅｓｃｒｉｐｔｉｏｎ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｂｏｓｔｏｎ，ＵＳＡ，２０１５：２６２５２６３４

［３０］ＤｅｎｔｏｎＥ，ＦｅｒｇｕｓＲ．Ｓｔｏｃｈａｓｔｉｃｖｉｄｅｏｇｅｎｅｒａｔｉｏｎｗｉｔｈａｌｅａｒｎｅｄｐｒｉｏｒ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．Ｖａｎｃｏｕｖｅｒ，Ｃａｎａｄａ，２０１８：１１７４１１８３

［３１］ＫｉｎｇｍａＤＰ，ＷｅｌｌｉｎｇＭ．ＡｕｔｏｅｎｃｏｄｉｎｇｖａｒｉａｔｉｏｎａｌＢａｙｅｓ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１３１２．６１１４，２０１３

［３２］ＳｈｉＸ，ＣｈｅｎＺ，ＷａｎｇＨ，ｅｔａｌ．ＣｏｎｖｏｌｕｔｉｏｎａｌＬＳＴＭｎｅｔｗｏｒｋ：Ａｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｐｐｒｏａｃｈｆｏｒｐｒｅｃｉｐｉｔａｔｉｏｎｎｏｗｃａｓｔｉｎｇ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｍｏｎｔｒéａｌ，Ｃａｎａｄａ，２０１５：８０２８１０

［３３］ＦｉｎｎＣ，ＧｏｏｄｆｅｌｌｏｗＩ，ＬｅｖｉｎｅＳ．Ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇｆｏｒｐｈｙｓｉｃａｌｉｎｔｅｒａｃｔｉｏｎｔｈｒｏｕｇｈｖｉｄｅｏｐｒｅｄｉｃｔｉｏｎ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｂａｒｃｅｌｏｎａ，Ｓｐａｉｎ，２０１６：６４７２

［３４］ＰａｔｒａｕｃｅａｎＶ，ＨａｎｄａＡ，ＣｉｐｏｌｌａＲ．Ｓｐａｔｉｏｔｅｍｐｏｒａｌｖｉｄｅｏａｕｔｏｅｎｃｏｄｅｒｗｉｔｈｄｉｆｆｅｒｅｎｔｉａｂｌｅｍｅｍｏｒｙ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１５１１．０６３０９，２０１５

［３５］ＯｈＪ，ＧｕｏＸ，ＬｅｅＨ，ｅｔａｌ．ＡｃｔｉｏｎｃｏｎｄｉｔｉｏｎａｌｖｉｄｅｏｐｒｅｄｉｃｔｉｏｎｕｓｉｎｇｄｅｅｐｎｅｔｗｏｒｋｓｉｎＡｔａｒｉｇａｍｅｓ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｍｏｎｔｒéａｌ，Ｃａｎａｄａ，２０１５：２８６３２８７１

［３６］ＫａｌｃｈｂｒｅｎｎｅｒＮ，ＶａｎｄｅｎＯｏｒｄＡ，ＳｉｍｏｎｙａｎＫ，ｅｔａｌ．Ｖｉｄｅｏｐｉｘｅｌｎｅｔｗｏｒｋｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．Ｓｙｄｎｅｙ，Ａｕｓｔｒａｌｉａ，２０１７：

１７７１１７７９［３７］ＷａｎｇＹ，ＬｏｎｇＭ，ＷａｎｇＪ，ｅｔａｌ．ＰｒｅｄＲＮＮ：Ｒｅｃｕｒｒｅｎｔ

ｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｐｒｅｄｉｃｔｉｖｅｌｅａｒｎｉｎｇｕｓｉｎｇｓｐａｔｉｏｔｅｍｐｏｒａｌＬＳＴＭｓ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．ＬｏｎｇＢｅａｃｈ，ＵＳＡ，２０１７：８７９８８８

［３８］ＺｈａｎｇＪ，ＺｈｅｎｇＹ，ＱｉＤ，ｅｔａｌ．ＤＮＮｂａｓｅｄｐｒｅｄｉｃｔｉｏｎｍｏｄｅｌｆｏｒｓｐａｔｉｏｔｅｍｐｏｒａｌｄａｔａ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２４ｔｈＡＣＭＳＩＧＳＰＡＴＩＡＬＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｄｖａｎｃｅｓｉｎＧｅｏｇｒａｐｈｉｃＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ．ＳａｎＦｒａｎｃｉｓｃｏ，ＵＳＡ，２０１６：９２

［３９］ＺｈａｎｇＪ，ＺｈｅｎｇＹ，ＱｉＤ．Ｄｅｅｐｓｐａｔｉｏｔｅｍｐｏｒａｌｒｅｓｉｄｕａｌｎｅｔｗｏｒｋｓｆｏｒｃｉｔｙｗｉｄｅｃｒｏｗｄｆｌｏｗｓｐｒｅｄｉｃｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３１ｓｔＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．ＳａｎＦｒａｎｃｉｓｃｏ，ＵＳＡ，２０１７：１６５５１６６１

［４０］ＬｖＺ，ＸｕＪ，ＺｈｅｎｇＫ，ｅｔａｌ．ＬＣＲＮＮ：Ａｄｅｅｐｌｅａｒｎｉｎｇｍｏｄｅｌｆｏｒｔｒａｆｆｉｃｓｐｅｅｄｐｒｅｄｉｃｔｉｏｎ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．Ｓｔｏｃｋｈｏｌｍ，Ｓｗｅｄｅｎ，２０１８：３４７０３４７６

［４１］ＷａｎｇＸ，ＧｉｒｓｈｉｃｋＲ，ＧｕｐｔａＡ，ｅｔａｌ．Ｎｏｎｌｏｃａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．ＳａｌｔＬａｋｅＣｉｔｙ，ＵＳＡ，２０１８：７７９４７８０３

［４２］ＭｅｎｎｅＭＪ，ＤｕｒｒｅＩ，ＶｏｓｅＲＳ，ｅｔａｌ．Ａｎｏｖｅｒｖｉｅｗｏｆｔｈｅｇｌｏｂａｌｈｉｓｔｏｒｉｃａｌｃｌｉｍａｔｏｌｏｇｙｎｅｔｗｏｒｋｄａｉｌｙｄａｔａｂａｓｅ．ＪｏｕｒｎａｌｏｆＡｔｍｏｓｐｈｅｒｉｃａｎｄＯｃｅａｎｉｃＴｅｃｈｎｏｌｏｇｙ，２０１２，２９（７）：８９７９１０

［４３］ＫｉｎｇｍａＤＰ，ＢａＪ．Ａｄａｍ：Ａｍｅｔｈｏｄｆｏｒｓｔｏｃｈａｓｔｉｃｏｐｔｉｍｉｚａｔｉｏｎ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１４１２．６９８０，２０１４

［４４］ＯｌｉｕＭ，ＳｅｌｖａＪ，ＥｓｃａｌｅｒａＳ．Ｆｏｌｄｅｄｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｆｕｔｕｒｅｖｉｄｅｏｐｒｅｄｉｃｔｉｏｎ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．Ｍｕｎｉｃｈ，Ｇｅｒｍａｎｙ，２０１８：７１６７３１

犣犎犃犖犌犑犻犪狀犑犻狀，Ｍ．Ｓ．ｃａｎｄｉｄａｔｅ．Ｈｉｓｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｎｄｃｏｍｐｕｔｅｒｖｉｓｉｏｎ．

犠犃犖犌犢狌狀犅狅，Ｐｈ．Ｄ．ｃａｎｄｉｄａｔｅ．Ｈｉｓｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｎｄｃｏｍｐｕｔｅｒｖｉｓｉｏｎ．

犔犗犖犌犕犻狀犵犛犺犲狀犵，Ｐｈ．Ｄ．，ａｓｓｏｃｉａｔｅｐｒｏｆｅｓｓｏｒ．Ｈｉｓｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｎｄｂｉｇｄａｔａａｎａｌｙｓｉｓ．

犠犃犖犌犑犻犪狀犕犻狀，Ｐｈ．Ｄ．，ｐｒｏｆｅｓｓｏｒ．Ｈｉｓｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｂｉｇｄａｔａａｎｄｋｎｏｗｌｅｄｇｅｅｎｇｉｎｅｅｒｉｎｇ．

犠犃犖犌犎犪犻犉犲狀犵，Ｐｈ．Ｄ．，ｐｒｏｆｅｓｓｏｒａｔｅｓｅｎｉｏｒｅｎｇｉｎｅｅｒ．Ｈｉｓｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ，ｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ，ａｎｄａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ．

犅犪犮犽犵狉狅狌狀犱Ｓｐａｔｉｏｔｅｍｐｏｒａｌｐｒｅｄｉｃｔｉｏｎｐｒｏｂｌｅｍｓｈａｖｅｍａｎｙｖａｌｕａｂｌｅ

ａｐｐｌｉｃａｔｉｏｎｓｉｎｒｅａｌｌｉｆｅ．Ｆｏｒｅｘａｍｐｌｅ，ｉｎｕｒｂａｎｃｏｍｐｕｔｉｎｇ，ｍｅｔｅｏｒｏｌｏｇｉｃａｌｄａｔａ，ａｉｒｑｕａｌｉｔｙｄａｔａ，ａｎｄｔｒａｆｆｉｃｆｌｏｗｄａｔａａｒｅａｃｃｏｍｐａｎｉｅｄｂｙｔｉｍｅｉｎｆｏｒｍａｔｉｏｎａｎｄｓｐａｔｉａｌｉｎｆｏｒｍａｔｉｏｎ．

Ｓｕｃｈｒｅａｌｄａｔａｃｏｌｌｅｃｔｅｄｃｏｎｔｉｎｕｏｕｓｌｙａｔｆｉｘｅｄｔｉｍｅｉｎｔｅｒｖａｌｓｃａｎｂｅｖｉｅｗｅｄａｓａｓｅｒｉｅｓｏｆｉｍａｇｅｓ，ｗｈｉｃｈｉｓｔｈｅｎａｂｓｔｒａｃｔｅｄｉｎｔｏａｓｐａｔｉｏｔｅｍｐｏｒａｌｐｒｅｄｉｃｔｉｏｎｐｒｏｂｌｅｍ．Ｔｒａｄｉｔｉｏｎａｌｍｅｔｈｏｄｓａｒｅｇｅｎｅｒａｌｌｙｂａｓｅｄｏｎｃｏｍｐｌｅｘｐｈｙｓｉｃａｌａｎｄｃｈｅｍｉｃａｌｍｏｄｅｌｓ，

１０３２期张建晋等：面向季节性时空数据的预测式循环网络及其在城市计算中的应用

《计

算机

学报

》

ｗｈｉｃｈｎｏｔｏｎｌｙｒｅｑｕｉｒｅａｌａｒｇｅｎｕｍｂｅｒｏｆｃｏｍｐｕｔｉｎｇｒｅｓｏｕｒｃｅｓｂｕｔａｌｓｏｒｅｌｙｈｅａｖｉｌｙｏｎｄｏｍａｉｎｋｎｏｗｌｅｄｇｅ．Ｉｎｒｅｃｅｎｔｙｅａｒｓ，ｄｅｅｐｌｅａｒｎｉｎｇｗｉｔｈｈｉｇｈｅｒｒｏｂｕｓｔｎｅｓｓａｎｄｌｏｗｅｒｃｏｍｐｌｅｘｉｔｙｈａｓａｃｈｉｅｖｅｄｒｅｍａｒｋａｂｌｅｒｅｓｕｌｔｓｉｎｔｈｅｓｐａｔｉｏｔｅｍｐｏｒａｌｐｒｅｄｉｃｔｉｏｎｐｒｏｂｌｅｍ．Ｔｈｅｒｅｆｏｒｅ，ａｓｐａｔｉｏｔｅｍｐｏｒａｌｐｒｅｄｉｃｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｄｅｅｐｌｅａｒｎｉｎｇｃａｎｂｅｄｅｓｉｇｎｅｄｔｏｓｏｌｖｅｓｕｃｈｐｒｏｂｌｅｍｓ．

Ｏｎｅｔｙｐｅｏｆｓｐａｔｉｏｔｅｍｐｏｒａｌｓｅｑｕｅｎｃｅｄａｔａｈａｓｖｅｒｙｏｂｖｉｏｕｓｐｅｒｉｏｄｉｃｃｈａｒａｃｔｅｒｉｓｔｉｃｓ．Ｆｏｒｅｘａｍｐｌｅ，ｉｎｔｈｅｃａｌｃｕｌａｔｉｏｎｏｆｔｒａｆｆｉｃｆｌｏｗｉｎｕｒｂａｎｃｏｍｐｕｔｉｎｇ，ｔｈｅａｃｔｉｖｉｔｉｅｓｏｆｔｈｅｃｒｏｗｄｈａｖｅｍｏｒｅｏｂｖｉｏｕｓｐｅｒｉｏｄｉｃｉｔｙｗｉｔｈｔｉｍｅ．Ｄｕｒｉｎｇｔｈｅｐｅａｋｈｏｕｒｓｏｆｃｏｍｍｕｔｉｎｇ，ｐｅｏｐｌｅｔｒａｖｅｌｍｏｒｅｏｆｔｅｎｔｈａｎｕｓｕａｌａｎｄａｒｅｐｒｏｎｅｔｏｔｒａｆｆｉｃｃｏｎｇｅｓｔｉｏｎ．Ｏｎｗｅｅｋｅｎｄｓｏｒｈｏｌｉｄａｙｓ，ｔｈｅｍｏｒｎｉｎｇａｎｄｅｖｅｎｉｎｇｐｅａｋｓａｒｅｎｏｔｏｂｖｉｏｕｓ．Ｂａｓｅｄｏｎｔｈｉｓｐｈｅｎｏｍｅｎｏｎ，ｉｔｉｓｃｏｎｃｅｉｖａｂｌｅｔｏｐｒｅｄｉｃｔｔｈｅｓｐａｔｉｏｔｅｍｐｏｒａｌｓｅｑｕｅｎｃｅｄａｔａｉｎｔｈｅｆｕｔｕｒｅｐｅｒｉｏｄａｎｄｒｅｆｅｒｔｏｔｈｅｄａｔａｉｎｔｈｅｃｏｒｒｅｓｐｏｎｄｉｎｇｐｒｅｖｉｏｕｓｐｅｒｉｏｄ．

Ｈｏｗｅｖｅｒ，ｔｈｅｐｒｅｄｉｃｔｉｏｎｏｆｐｅｒｉｏｄｉｃｓｐａｔｉｏｔｅｍｐｏｒａｌｄａｔａｈａｓｔｗｏｐｒｏｂｌｅｍｓ．Ｆｉｒｓｔ，ｔｈｅｒｅｉｓｒａｒｅｗｏｒｋｔｏｄｉｓｃｕｓｓｐｅｒｉｏｄｉｃｓｐａｔｉｏｔｅｍｐｏｒａｌｄａｔａｉｎｔｈｅｆｒａｍｅｗｏｒｋｏｆｄｅｅｐｌｅａｒｎｉｎｇ．Ｔｈｅｍａｉｎｒｅａｓｏｎｉｓｔｈａｔｐｅｒｉｏｄｉｃｓｉｇｎａｌｓｏｆｔｅｎｎｅｅｄｔｏｉｎｐｕｔｗｉｔｈｌｏｎｇｔｅｒｍｄａｔａ，ｂｕｔｔｈｅｃｕｒｒｅｎｔｍａｉｎｓｔｒｅａｍｃｏｎｖｏｌｕｔｉｏｎａｌｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓｓｕｆｆｅｒｆｒｏｍｇｒａｄｉｅｎｔｖａｎｉｓｈｉｎｇａｎｄｅｒｒｏｒａｃｃｕｍｕｌａｔｉｏｎ．

Ｓｅｃｏｎｄ，ｓｔｒｉｃｔｐｅｒｉｏｄｉｃｓｉｇｎａｌｓａｒｅｄｉｆｆｉｃｕｌｔｔｏｏｂｔａｉｎｉｎｐｅｒｉｏｄｉｃｓｐａｔｉｏｔｅｍｐｏｒａｌｐｒｅｄｉｃｔｉｏｎ．Ｆｏｒｅｘａｍｐｌｅ，ｉｎｕｒｂａｎ

ｃｏｍｐｕｔｉｎｇ，ａｌｔｈｏｕｇｈｔｈｅｔｒａｆｆｉｃｆｌｏｗｄａｔａｓｈｏｗｓｐｅｒｉｏｄｉｃｃｈａｎｇｅｓｄｕｅｔｏｔｈｅｉｎｈｅｒｅｎｔｒｏｕｔｉｎｅｏｆｔｈｅｃｒｏｗｄ，ｔｈｉｓｐｅｒｉｏｄｉｃｉｔｙｉｓａｎａｐｐｒｏｘｉｍａｔｅａｎｄｖａｒｉａｂｌｅｒｅｌａｔｉｏｎｓｈｉｐ．Ｉｔａｐｐｅａｒｓａｓａｃｈａｎｇｅａｎｄｓｈｉｆｔｏｆｔｈｅｄａｔａｐａｔｔｅｒｎｉｎｔｉｍｅａｎｄｓｐａｃｅ．Ｗｅｎｅｅｄｔｏｉｎｔｒｏｄｕｃｅａｍｏｒｅｆｌｅｘｉｂｌｅｌｅａｒｎｉｎｇｍｅｃｈａｎｉｓｍｔｏｃｏｒｒｅｌａｔｅｅａｃｈｐｅｒｉｏｄ，ｗｈｉｃｈｉｓａｂｌｅｔｏａｄａｐｔｉｖｅｌｙｌｅａｒｎｔｈｅｄａｔａｐａｔｔｅｒｎｏｆｔｈｅａｐｐｒｏｐｒｉａｔｅｔｉｍｅｐｏｉｎｔｓａｎｄｒｅｇｉｏｎｓｉｎｔｈｅｈｉｓｔｏｒｉｃａｌｐｅｒｉｏｄ．

Ｉｎｔｈｉｓｐａｐｅｒ，ａＳｐａｔｉｏｔｅｍｐｏｒａｌＰｅｒｉｏｄｉｃＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ（ＳＴＰＲＮＮ）ｉｓｐｒｏｐｏｓｅｄｔｏｗａｒｄｓｕｒｂａｎｃｏｍｐｕｔｉｎｇ．Ｗｅｐｒｏｐｏｓｅａｎｅｗｃｏｎｖｏｌｕｔｉｏｎｍｅｍｏｒｙｕｎｉｔｔｈａｔｃａｎｕｎｉｆｏｒｍｌｙｍｏｄｅｌｔｅｍｐｏｒａｌａｎｄｓｐａｔｉａｌｉｎｆｏｒｍａｔｉｏｎ，ａｎｄｓｉｍｕｌｔａｎｅｏｕｓｌｙｅｘｔｒａｃｔｓｉｍｉｌａｒｃｈａｎｇｅｓｉｎｔｈｅｓｈｏｒｔｔｅｒｍａｄｊａｃｅｎｔｄａｔａａｎｄｌｏｎｇｔｅｒｍｈｉｓｔｏｒｉｃａｌｐｅｒｉｏｄｉｃｄａｔａ．Ｆｕｒｔｈｅｒ，ｗｅｉｎｎｏｖａｔｉｖｅｌｙｕｓｅｔｈｅｓｐａｔｉｏｔｅｍｐｏｒａｌａｔｔｅｎｔｉｏｎｍｏｄｕｌｅｉｎｔｈｅｎｅｗｃｏｎｖｏｌｕｔｉｏｎｍｅｍｏｒｙｕｎｉｔｔｏｍｏｄｅｌｔｈｅｔｅｍｐｏｒａｌａｎｄｓｐａｔｉａｌｅｌａｓｔｉｃｃｏｒｒｅｓｐｏｎｄｅｎｃｅｏｆｍｅｍｏｒｙｓｔａｔｅｓｉｎｄｉｆｆｅｒｅｎｔｐｅｒｉｏｄｓ，ｔｈｅｒｅｂｙａｄａｐｔｉｖｅｌｙｓｅｌｅｃｔｉｎｇｈｉｓｔｏｒｉｃａｌｄａｔａｏｆｔｈｅｍｏｓｔｒｅｌｅｖａｎｔｐｅｒｉｏｄ．ＴｈｅｍｏｄｅｌｐｒｅｓｅｎｔｅｄｉｎｔｈｉｓｐａｐｅｒｗａｓｔｅｓｔｅｄｏｎｔｗｏｓｔａｎｄａｒｄｔｒａｆｆｉｃｆｌｏｗｄａｔａｓｅｔｓｏｆＴａｘｉＢＪａｎｄＢｉｋｅＮＹＣａｎｄｏｎｅｃｌｉｍａｔｅｃｈａｎｇｅｄａｔａｓｅｔ，ｂｏｔｈａｃｈｉｅｖｉｎｇｔｈｅｂｅｓｔｒｅｓｕｌｔｓｔｏｄａｔｅ．

ＴｈｉｓｒｅｓｅａｒｃｈｗａｓｓｕｐｐｏｒｔｅｄｂｙｔｈｅＮａｔｉｏｎａｌＮａｔｕｒａｌＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎｏｆＣｈｉｎａ（６１７７２２９９，７１６９０２３１，６１６７２３１３）．

２０３计　　算　　机　　学　　报２０２０年

《计

算机

学报

》

面向季节性时空数据的预测式循环网络及其...

Documents