清华大学李萌：基于大数据的城市交通特性分析_大数据资讯

中国IDC圈4月27日报道，互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力，与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新，工业大数据应用面临哪些挑战，金融行业大数据应用现状如何等。围绕这一系列问题，4月27日至28日，由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。

其中，在4月27日下午“大数据与城市交通”分论坛上，清华大学土木工程系、交通研究所李萌博士发表了精彩演讲。

500-333文章照片-大数据与城市交通-李萌

清华大学土木工程系、交通研究所李萌

以下为李萌演讲实录：

李萌：各位来宾，首先非常感谢大会组织者邀请我来参与大会，今天也想在这边跟大家分享几个我们应用交通领域的模型跟数据挖掘模型结合怎么样更好的服务于民众和提升他们的管理效率。

今天可能分四个部分，首先非常简要的讲一下研究背景，大家都了解的。然后从三个方面讲一些我们的成果，包括从交通拥堵分析，交通排放分析，和可以应用到的一些交通分析管理措施。

从研究者层面，大家看到了，不光是国内，还有国外，包括交通拥堵问题，包括产生连带的排放问题和交通安全问题。在这里面我们几个角度分析，包括我们从交通瓶颈分析，去分析我们交通拥堵所产生的一些根本的根源在哪里，产生的原因在哪里。产生拥堵，产生了多少交通拥堵，这些拥堵又造成多少排放，进行排放分析，这这里我们服务于管理部门建议有哪些措施。

首先对于交通分析，对于北京城市来说，到处都在拥堵，拥堵起因在哪里，关键点在哪儿？这就是我们交通瓶颈分析。首先回答第一个问题，如何寻找到产生交通拥堵的关键问题关键瓶颈，首先第一个如何评价交通状态。传统来讲我们一方面看到互联网企业用速度表达，我们温主任这边用非常广的交通指数，从我们交通理论分析来说我们看到的交通状况应该从哪些方面分析。对于我们传统交通领域来说，我们构建的基本关系就是有一个关键点，就是交通系统达到饱和能力的时候会出现一些不稳定的现象，这个是关键节点，这个节点里面看到它的饱和通行能力达到一个关键指标，另外一个它的速度达到关键指标。达到饱和和评判非饱和关键速度用它评价饱和还是未饱和，这个层面我们能够有效的帮助管理者提升他们的管理水平。

这里我们两个数据，一方面来自高德，高德给我们提供大量的浮动车，包括手机APP大量的信息，这里面信息实际上对于我们传统，因为我们传统交通管理信息是离散断面的信息，断面的信息是全流量全样本信息，但是只是在少数断面的信息采集，但是如果得到“互联网+”大数据浮动车的数据，它虽然是抽样的，但是可以连续变速的信息，我们可以观察整个交通运行变化。这下面这张图是流量跟速度的代表图，我们看到整个交通流向变化规律从进速区，流量进入饱和区，进入饱和区过渡状态，然后速度流量再进一步增加速度会下降，进入过饱和状态，这边是未饱和状态，所以我们通过大量数据采集，分析在不同状态，主要我们分析快速路，从不同节点表现出来的状态，这些状态都是不一样的，我们看到有些图，从非饱和进入到饱和状态过渡阶段实际上存在大量的离散信息分布，有些节点实际上出现未饱和和过饱和状态中非常快速的过渡，我们没有看到在过渡区有大量速度的分离，这是为什么产生，所以我们在这里面进一步分析，包括我们用模式识别方法分析出过饱和和未饱和过渡状态的时候有哪些特别的类型。在这里面我们用过饱和概率去判断我们整个的概率分布。什么叫过饱和概率？在我们这一个图里面，这一部分是过饱和状态，这一部分是未饱和状态，我们在所有交通状态里面，过饱和状态和所有状态的百分比，我们所有采集的信息里面有多少比例是在这个点处于不饱和状态。如果这个过饱和状态过高，表明这个点会经常或者高概率出现饱和情况，我们展开这个对二环所有分析，二环不同节点展开分析，我们看到不同节点表现出了不同的现象，这是我们用一个季度的全数据表达出来的。

在这里面我们不光是看到了在不同节点有不同高度，也就是说它有不同的过饱和概率。而且我们看到在相关的上下游前后变化规律实际上也有它的内在变化含义。是什么呢？如果我们去分析，我们整个过饱和概率分布随着它的地区变化有四个基本模式，第一个模式是这样的，实际上是以建国门区域为主要代表的，这个模式是什么，它在建国门的上游地区，实际上它会出现，也就是在这个方向实际上它都是处于严重拥堵，经常会出现概率比较高的拥堵；它在下游建国门下游这个区域，是二环内环方向，大面积区域出现了过饱和概率会突变，突降的过程。什么概念？我们分析在北京非常典型的趋势，也就是说建国门是关键的节点，在这个节点概率上因为建国门所产生一系列连带的拥堵的发生，这些连带拥堵发生出现的概率和时长都小于建国门，如果通过热力图表达，热力图横轴从早上到晚上不同的时间，数轴是代表不同的位置和天数。我们这个红色看到出现拥堵区域，从建国门开始不断出现拥堵，而且以晚高峰拥堵，高高峰相对较好的现象。我们通过热力图分析和概率图分析，可以看到建国门系关键的瓶颈，导致了建国门上游出现大量拥堵的现象，这是在我们通过二环整个所有模式识别之后发现第一个主要的模式。这还是建国门模式，包括我们分析和二环、三环、四环，分钟寺、玉蜓桥模式非常类似，上游出现拥堵，下游迅速的恢复。

第三类我们看到的模式上游混合概率突然增加，下游恢复，这个包括二环境内环安定门的位置，包括三环莲花桥和四环，这连续出入口是关键节点，而上游是没有实现拥堵，而只是出现局部的拥堵现象。

第四类西二环复兴门会出现连续性的拥堵，这里面有很多办公区域和吸引人的区域，道路需求非常大，出口也非常多，出现混杂的集聚的道路交通拥堵状态。我们通过四类主要交通拥堵模式角度来看，这是我们对北京城市环路的交通瓶颈进行分析，我们分析方法一方面结合了我们交通工程里面交通分析里面基本模型和数据挖掘模型分析交通拥堵特性。

下一步希望跟大家分享的是交通排放的分析，前面几位嘉宾都讲到了交通排放的分析，我们讲的方式跟之前几个嘉宾讲的方式不太一样，因为我们用了“互联网+”的信息跟我们交通管理信息融合，一方面我们大量应用浮动车的分析，一方面从人流分析图和出租车分析，我们这个层面详细的使用GPS数据，包括它的详细信息和加速度信息，这样的信息实际上允许我们去采用微观模型进行单车整个排放的估计，我们应用的是MIT比功率模型，计算出单车在加速度模式性的排放，这些不同的汇总，同时我们也加家童部门给我们提供断面的信息，我们通过局部抽样一些单车的信息和我们断面交通流整体信息，去评价整个交通运行状态排放的分析。这个我们是排放层级，并不是污染层级，上面这张图是分析，如果早高峰绕二环一周，根据我们的速度和流量信息，可以计算出它的整个绕行一周的排放总量。下面这张图得到的是整个区域，按道路级，我们从微观得到中观道路层面排放信息得到的结果，这是在不的政策之下，绿色代表工作日，红色代表周日的情况，所以我们可以看到政策实施，平时和周末是有所区别，在不同环路里边包括运行情况和交通流的情况得到不同的结果，比如绕二环周六日排放是2.64%，平时是4.84%.这个是我们根据整个二三四环的结果，我们根据机动车方法得到的单氧化物的时空分布图，绕着空间分布的关系，在二环、三环、四环的不同位置，这个是代表不同的时间，早高峰、晚高峰不同时段产生的拥堵，另外还有热力图包括在不同位置排放整体的分布图，它也是综合了不同的信息源，针对早晚高峰进行详细的分析。右边这张图早高峰二氧化碳物排放的不足，这个我们根据分析原因，后面我们也在寻找产生的原因，这里面根据我们三维热力图不同季度、不同时间它的整个分布进行深入分析，以及针对不同管理政策，包括不同时限政策，不同节假日期间以及阅兵期间，包括两次红色预警期间对环色排放的分析，根据假期长短不一它的交通拥堵差别比较大，工作日期间碳氧化物排放3.7%，阅兵是下降很多。十一的假期、五一的假期，跟短的清明假期产生的效果也有明显的不同。

另外从我们交通的排放分析，我们也给出了它的排名，在不同的区域不同的时间段给出了它的排名，从早晚高峰对比差别非常大，人们对比早晚通勤流向产生的不同，对早晚高峰不同污染物排放跟区域来讲基本一致，这里面明显拥堵瓶颈区域会产生更多的交通排放，因为它产生低速怠速之间的排放也产生了大交通拥堵的排放。大概几个点，从里面看相对严重程度由高到低排放，从二环广安门，天宁寺，四环五棵松，三环莲花桥的排名。我们除了这个排放以外也根据排放分析，平均速度比较低，排放比较高。另外处于过渡期，过密度，以背四环为代表，这种高流量区域也是高排放的一个非常明显的代表。另外就是高速度区，实际上我们看到主要污染物排放实际上是更大的排放，高速度中流量产生比较高的整体排。另外看排放量交通以主要参数进行对比，以排放严重为对比的西二环为主要例子，主要以工作日和阅兵对比来看，我们工作日和阅兵在速度提高了20%情况之下，流量下降6.3%的情况下，我们整体交通污染物排放13.5，这个一方面我们看到直接减少道路交通的流量，更多的交通过饱和现象减少，其实它对我们污染物排放过饱和的原因，这个是对显著的参数。

另外如果我们看交通污染量环比对比，8月交通污染物相对比较小，这是我们对比2015年全年的数据，12月这个是交通非常差的一个月。

另外一个是我们最近做的想用“互联网+”吸引眼球的方式我们在高德推动下做的这么一个奇怪的分析，我们分析房价跟我们周边道路排放产生关联关系，其实没有关联关系，我们只不过得到这么一个对比。我们抽取了其中北京相对比较有代表性，一共是六个区域，万柳、望京、崇文门、五道口、马家堡，它是整个交通道路排放跟整个房价产生关系，我们看到有意思的现象，不一定真正有关联关系，这个现象里面如果以望京为例子，对于马家堡区域来说，污染物排放略为提升，房价没有现象。在五道口排放高于望京区域。挽留是既高排放又高房价现象。

这是我们针对快速，在这里面我们根据热力图方式，我们根据过饱和概率方式，寻找他们瓶颈的角度，在这个瓶颈寻找它跟交通管理的方式，我们看到大量快速路的入口，我们看到这是发生主要的瓶颈，这个建议如果从管理角度建议设置较缓冲带，避免车流产生的拥堵造成一系列的拥堵现象和瓶颈现象。另外建议在关键出入口进行诱导，和北京市交管局合作也做了几个方案。另外也是对沿线信号灯的配合，特别是跟我们相关的出入口进行协调有效的配置。

另外针对城市道路进行了详细分析，我们选取了清华在往北上地区域最堵的一个道路，早晚高峰长时间出现拥堵的状态，有几个主要的原因，节是道路交通堵塞和道路停车增加了堵车的现象。

另外我们对整个城市状态进行详细过饱和分析，他们在这个状态分布不同的管理策略之下我们看到交通拥堵的一个分布变化，针对这种常态全时工饱和，我们定义这个词，我们看到二环从早到晚都出现长期拥堵情况，而且是长期过饱和的状态给出了这么一个定义，在这个里面相应部门给出了管理措施，在这个里面不同的政策和过饱和影响是不均匀的，我们看到这张图给出来的对于不同的环路限行政策里面产生不同的敏感性，也就是说未来我们产生政策，更进一步的政策的话，根据区域分析应用不同的收费政策。

最后跟大家分享的是对于交通管理诱导方案给出的分析，这个诱导方案我们分析还是二三四环，内环方向和东西南北各个方向，我们看它从早到晚这几个环路预测它发生的概率是否有相关性，如果某一个环路出现拥堵之后，另外两个环路出现拥堵空间相对比较慢，我们就可以针对诱导。我们看东南西北这四个方向，并不是都有诱导空间，能够产生大的是西边二三四环，实际上是在不同的时段，它产生的拥堵差别是比较大的。再从下午的三点到六点这个时段，它的过饱和占有率在0.63、0.32、0.19这三个方向可以出不同的诱导方案。

总结一下我们学者也在不断的尝试把我们交通模型，数据挖掘和互联网公司所在应用的一些数据挖掘的模型进行结合，我们希望达到两个目的，一方面能够有效的帮助管理者提升我们的管理水平，另外一方面希望我们能够像互联网企业一样提供给民众更有效的信息服务，提升我们整个城市交通的一个状态。这就是我今天的发言，谢谢！