中国IDC圈4月27日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。

其中,在4月27日下午“大数据与城市交通”分论坛上,百度公司百度地图基础业务部高级经理覃梦龙发表了精彩演讲。

500-333文章照片-大数据与城市交通-覃梦龙

百度公司百度地图基础业务部高级经理覃梦龙

以下为覃梦龙演讲实录:

覃梦龙:大家好,很荣幸被邀请来参加大数据峰会,我是代表百度地图基础业务部代表研发跟大家分享大数据交通,我们作为一个互联网公司,对于智能交通上面我感觉发言权不会特别高,但是百度地图大家可以看到在市场占有率也是数一数二的情况。我们怎么利用大数据时代跟智能交通结合,做成我们一家互联网企业呢?

首先我们看一下百度大数据的简介,互联网地图诞生已经十年左右的时间,互联网地图从纸质到电子地图的转变,纸质地图无法实时更新,W互联网地图是实时在线和实时数据更新,根据不同的路线情况和交通情况可以做改进,应用程序,包括基本功能都通过一些开放接口让开发者,或者说研究中心可以去调用。

这个图大家可以看到,我们整个互联网拉近了人和人的距离。为什么这么说?大家可以看到从211年5月份开始到2015年3月份月活跃用户数3.6亿,活跃度73%,在国内排名第一,季度环比增速超过45%,百度地图作为一个地图商产品,其实归结为百度大数据很好的利用。百度地图大家都知道其他的核心功能大家打开APP都能看到,公交、驾车、出行,包括深度功能,比如实时公交、路况和语音导航包括停车场推实时推送,百度在这方面有什么优势?百度地图作为一个技术工具,其实不仅仅是存在了地图的功能,更多的基于位置提供服务,比如说酒店、用车、以及外卖、美食、电影和旅游,大家在一些位置情况下面大家可以尝试不同的便利交通和规划,更多的实时交通方面的体验。

这是道路数据生产链概览,区别于传统提供商,卫星影像,长地,政府来源,他们关键技术是大数据挖掘、多源数据融合,深度学习,但是百度地图可以做全网分析,为什么这样说?因为百度地图不仅仅是传统更新路网,更多是做采集挖掘技术提取数据,然后进行多网融合,并实现在线实时录像。

我们可以看到百度地图大数据的数据,刚刚腾讯同事也提到了,比如说用户规模,市场份额,以及每天响应定位请求,百度地图日均定位UV5亿+,用户份额排名73%,用户规模3亿+,所以更多的是基于车辆用户、出行和导航,所以交通这个领域百度地图数据质量上面是有天然的优势的。

大家可以看到大数据规模我们从哪方面去看,比如公交路线,以及定位请求次数,以及我们的WIFI定位精度,还有包括用户量,还有POI数据,POI3800万数据有很多商业部门跑的,还有一些商家店铺,还有一些全景视力图。大家看到2013年百度每天35亿次定位请求,主要是东部和发达地区。到2014年就得到一个非常猛烈的发展,在西部和东部地区更多人开使用,在一些偏远地区西部地区开始用百度地图来进行定位;而到2015年,每天相应四30亿次定位请求,这里面包括手百和糯米开发者,他们都在全球使用百度POI,大家知道百度不仅是中国互联网企业,搜索走向国际化,百度地图发布了18个亚太地区的地图服务,今年底可能要发布180个国家所有地区的服务。

我们可以看看互联网公司基于大数据的产品,就是高速以及城市路况,为什么拿路况这个来说?大家可以想象路况是什么样,比如轨迹数据很足,我们知道数量是什么样就知道路况是什么样。为什么说大数据会这么重要?一会儿我会提。在百度路况会覆盖到全国所有城市,如果三四线城市,主干道是都要覆盖的。然后大数据的一些价值,比如说实时公交,当你想去到哪个地方如果路线上面有公交车,上面会展现出最近的一趟公交车离你现在的地点还有多久,你可以更好的安排你的出行计划,包括这个旅行时间估计,比如从某个地方到另外一个地方,其实OD之间的时间分段,我们会用时最少以及一些拥堵方案供大家选择,这个是地图核心的业务和核心价值,如果导航、公交或者是路况做的不好,其实地图的用户会很快的都会离开百度地图。

还有一些大数据的挖掘价值,这部分价值我不会谈的太多,因为这部分价值我觉得我们作为一个互联网公司来说没有太多的发言权,比如说我们对这部分数据利用的还不够充分,因为这些数据比如说政府和研究机构以及学校对于这些数据怎么用应该比我们了解更多,我们只是在数据里面挖出冰山一角,我们把数据发布出来,比如我们看春运的时候哪些城市更多人迁入和哪些城市更多人迁出,以及我们怎么选择路线,以及某些节日,比如情人节时我们做什么流量推广。

我现在说的更偏技术性的东西,就是我们智能交通计算平台,这可以认为是百度地图大脑。智能交通服务都有哪些?比如说我们可以看到的,截至到2014年底国家汽车保有量1.4亿,国家2014年可以完全进入了汽车社会,在2013年到2015年由于移动互联网发展,我们也进入了移动互联网社会,我们有了移动互联网更大的数据采集和更大的数据量,我们可以看到更大的数据,比如说上海用户平均每次拥堵是15分钟,平均他们速度22千里每小时,这个速度大家可以认为是非常非常拥堵的,我们要做的智慧交通就是通过我们的智慧交通提供服务提高智慧效率。我们通过车辆调度、商圈选择以及城市规划,包括社会效率。我们整个平台从上到下分为四个部分,第一个是应用,基于我们这些数据做一些具体应用,第二个是数据挖掘,第三个是数据分析,第四个是定位,刚刚说精准定位是非常高,1多3米左右。数据我们跟合作方和政府合作数据,这些数据比如说出租车数据高质量,但是它覆盖率存在不足,我们还有地图导航数据,这些数据非常大,但是非常差,那我们就要做数据清晰,比如地图匹配,轨迹分类,拓扑构建,我们把高质量的引进来,把轨迹量不足的地方把它做泛化,把数据做补充。我们利用实时路况,时间估计,实时公交,包括新路发现,因为有了新路发现,我们才把地图流程提升到天级或者是小时级别。

地图匹配,我们不是运营商,所以我们拿到数据是运营商的点,他给我们就是这些点,那么我们需要就是把这些点还原成他所谓的轨迹,而且这些轨迹需要自造,而且有些点离的非常远,有些可能比如从汽车已经转换成步行,我们会把这些点通过建模转换成这样一个轨迹,我们对算法和模型有很多的要求,比如它具有很高的鲁棒性。当然这个用户定位点缺失比较大,这样保证我们的数据越来越的精确性。还有说K阶HM图,这条路是否通行,比如大家看到这个线,如果用户在西直门立交桥那个地方是要绕道的,因为那个地方有一个限制。

实时路况我们首先要做分钟更新,如果太慢就不会很准确,如果更新更快,比如这个地方红灯比较长,大家经常会觉得红灯会很堵,绿灯也会很畅通,对于产品我们不能把红灯绿灯去做,我们会融合评估整个红灯情况。第三个是全国覆盖,如果一个数据没有路况,其实用户对这个路况是不信任的。我们把这些还原成轨迹之后,就会变成这个样子,十分钟或者二十分钟之内这条路段上面所有轨迹的趋势图,通过趋势图,我们可以看到这个路段它是从畅通开始慢慢地速度下降变成拥堵,但是它并没有完全拥堵,加上我们计算和核算趋势,把实时路段发送拥堵,实践证明我们这个按趋势模型算法,准确率达到80%左右。

除此之外我们还会加入一些时空规则,举个简单例子,比如这个路段上面现在车辆很少,可能只有两辆车,有一辆车开的非常慢,我们轨迹就看车开的非常慢,轨迹量很少,这个时候我们说这个车拥堵是不对的,因为他可能刚开车开的非常慢,所以我们结合他上一个时间速度开的非常快,他慢速的可信度,通过实时模型和预测模型,整个路况率提升90%恩左右。

第三个比较难的就是时间估计,刚刚跟下面同学讨论了一下,时间估计这个非常难做,难做的原因大家能想到,比如去一个地方需要50分钟,我首先要拿到的数据就是以前的数据,我们不能用当前路况累加,当前在车行使过程中会变,所以当前路况不准。维度用哪个维度,比如今天下雨和明天下雨不一样,包括路面拥堵,今天拥堵和昨天拥堵通行时间也是不一样,所以如果我们用路段累加方式会陷入灾难。第二个这种数据越远的时候我们用累加方式,到后来累加的准确率可能就会越来越低,就会造成拥堵的情况。

大家可能6月份会看到我们推出全新的一款百基于百度图象识别和人脸识别类似的方式,给大家举一个例子,人脸识别如果你用特征会陷入一个问题,人五官是特征,五官有五个特征,五官的五个特征可以相互组合可以形成更多的特征,他的左脸和右脸有很多特征,她今天画眉毛明天不画眉毛,你识别就不会准,因为她的眉毛会变。地图LENING是什么方式?跟大家具体描述可能要一天一夜,简单来说就是把时间、路况都丢进去,计算出来一个抽象的特征,这个抽象特征最后降为三到五个特征,通过这三到五个特征再去训练模型,这样得到效果。包括这里面有大数据效果,基本上准确率可以达到70%,以前可能是50%恩左右。50%就是诟病的状态,因为它就是准和不准之间。

第三个就是实时公交,就是互联网企业可以认为是一种无奈或者是折中,以后互联网企业不会有太多的公交信息,公交是政府手里,不可能开放给企业。公交数据有百度用户的时候,他会得到WIFI点,基于WIFI点可能是根据POI,我们用POI来判断这个用户处于的位置来判断实时定位,但是实时定位在大城市定位非常多,准确率非常高,但是在小城市里面这种定位还是非常难的问题。

这个是新路发现,为什么百度可以做到道路有些信息时可以做到天级别或者是小时级别更新,这个是分析原因,我们经过地图更新会实时匹配信息,比如会有天级别周量数据匹配,也小时级每天数据匹配,通过数据匹配发现出每天路网这个地方有轨迹,或者说这个地方以前没有通行最近发现一些轨迹,我们在没有匹配的道路去修道路,有匹配的就实时导航轨迹。

举个例子,武鄂高速开通的时候,我们基于我们导向路线匹配这条新路,让用户更早的开到这条新路上面去。

这个其实就是现在百度地图做的高精度地图,现在大家知道无人车比较火,无人车无论是全自动还是半自动,这里面有一个基础就是高经地图,第一方面是车载方面,另外一方面就是地图绑定,车载地图如何跟地图绑定,这是涉及到高精地图。地图上面有高精度的坐标系,比如这两个POI中间有100米到50米,但是这种地图不能给我们全自动汽车使用,对于汽车使用,它在开一半的时候采集到的图像是周边信息,它通过周边信息精确地知道POI距离多远,这个方面百度无人车和宝马合作,在北京已经实现了高速公路、城市路面以及主辅路实现自动驾驶的技术。

这个是高精度地图导航,大概是5到100米,目标是二维,百度高精度地图是0.1米,坐标是反过来可以解决路况和导航问题,因为路况和导航里面最难解决的问题如果大家有研究可能就知道主辅路,以及高架,这方面主辅路不准。高架无法判定这个车是在高架桥上还是高架桥下,但是通过高精确地图也就是我们能够预见的下一代地图这些问题都可以解决,比如说路况、导航。

下来我再给大家分析一些大数据的出行分析地这些出行分析我是不打算跟大家说太多,因为这部分基本上所有大数据都会做同样的事情,我觉得百度优势在于数据量比较全,或者比较准,但是对于一个分析报告来说大家这些点基本上相似,但是这些让大家知道的就是百度有哪些数据,让大家知道对百度更精细和更深度挖掘的时候可以联系百度,这个数据是更开放的。比如说迁徙数据,这个是大家都有的,迁徙数据390,676,这些距离大家都会挖掘数据,其实也没有评判的标准,所以这里面就会有一个问题,大家的很多大数据没有融合在一起,各自有各自的类型,我们后面可以凭着合作和开放的态度融合,大家可以找我说这些数据怎么用。

比如还有春节节点流量变化特点,这是我们分析了所有节点的流量,当我之前没有拿到这个分析结果时我是不知道具体的时间点,比如大家可以看到2月3号腊月十五流量是高峰,我没有这个数据我是不知道2月3号腊月十五流量是高峰,但是可能是腊月二十八的时候是高峰,其实是不知道的。还有一个就是流量回升,初三的时候已经回升,初七、初八是制高点,如果没有这个大数据分析你是没法精确到某一天的。

这是百度开放平台,迁徙。baidu.com,这个是我截了百度7点早高峰,从四环、二环里面都会往国贸附近去跑,所以国贸附近在早上七点的时候就已经开始非常拥堵了。

大家也可以看看北京出行纪律,北京是22千米,上海15千米,广州21千米,我们可以看到北京22千米是一小时的时间,我们就可以给他选择道路安排。还有同样就是用户画像以及常住人口分析和流动人口分析,这些挖掘常驻身口工作地和居住地,以及行政区划、商圈、小区等各个维度,这些都是可以数据持续更新,这些我们还做的不够。百度有一个产品叫会选址,大家可能没有用到,百度的合作商已经用到“会选址”,比如当你想开一家店,或者想要知道你投入的人流量的时候,按照你之前的一个估算店面会多大,需要多少员工,类似于此类的商业信息,但是在交通上面,其实由于百度是一群计算机的同学在做交通,所以在交通上面我们的应用更多的是一些政府或或者说企业主动来找我们要一些数据,我们不断挖掘达到一些效果,所以数据挖掘方面我们是需要大家更多的指导的。以及旅游分析,这些我们跟凤凰,和公园游乐场进行一些旅游市场分析,包括去哪儿,这些分析可以便于他们安排他们报什么价格,比如说它的客流是什么样的情况,比如说它可以安排几个点诸如此类的,比如这些个人性别、年龄和兴趣爱好,这些我们都有,但是不一定用的特别好。如果大家有更好的想法和更好的应用点的话,其实可以跟百度来合作。

还有景区热力预警分析,这个就是刚刚所说的热力图,这个热力图实际上都是实时的,比如现在我们能拿到的北京朝阳公园的一个热力图,属国朝阳公园发生了一些事件,比如说有些明星去朝阳公元驻唱之类的,有很多人,热力图会往那边去,当然这个百度和政府已经合作了,我就不一一说。因为大家基于应用,以及当地的旅游景点或者是当地汽车情况。

最后我想跟大家分享最主要的一个目的是什么,其实互联网在交通更专业的会议上面互联网想说互联网有哪些优势,互联网有很多数据,这些数据会覆盖范围非常广,互联网具有高效和通用性,如果我们在某个城市拿到很好的模型可以在全国马上推广使用。一个劣势是什么,大家知道互联网是更多的偏重数学和工程师,我们会基于统计办法,我们不会拿传统的交通模型,因为这些传统的交通模型解决,平常是40分钟大家觉得比较快了,如果到上海和深圳,40分钟就会非常慢,因为我们没有使用具体的场景,更多的使用通用的情况,我们可以通过通用的指数反应各个不同的城市上面,虽然我们准确反应出速度,但是在速度上到底是拥堵还是畅通,各个城市不一样。所以我们从这点看到互联网企业并不是孤立的数据孤岛,更多的是数据开放性的,而且包括它所有浮现出来的是所有大数据的冰山一角,这冰山一角需要大家更多的探讨怎么使用,以及我们资源互换或者是融合,这就是我今天的分享,谢谢大家!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>