随着互联网+、人工智能、云计算等新技术不断涌现与成熟,大数据与各行业深度融合,引发了各种变革。搜索引擎服务、电子商务、社交网络、在线音视频、地理信息服务等互联网应用产生了海量数据,企业如何从海量数据中发掘有价值的数据,将数据标准化、平台化、智能化、产品化,最终帮助企业进行正确决策,成为企业大数据落地的重点和难点。

“在合法合规的前提下,从海量数据中高效的提取数据的应用价值,是大数据落地的关键所在。如果数据量很大,但是无法提取出价值,反而是一种负担。”联通大数据有限公司数据科学总监陈博表示。“从落地的角度看,我觉得大数据需要与各行业深度融合。同样的数据可以用于不同的行业,而如何从数据中形成适合某个行业的应用价值,需要对数据的价值维度与行业的应用场景都有非常深入的认知。”陈博补充说。

站在传统通信运营商的角度,联通大数据如何深耕大数据领域?如何让运营商大数据更好的为行业赋能?值此WOT2019全球人工智能技术峰会之际,陈博接受了51CTO记者的专访,就运营商大数据应用的话题进行了深入探讨。

陈博

嘉宾介绍

陈博,博士后,联通大数据有限公司数据科学团队负责人,主要负责大数据分析挖掘、机器学习建模、人工智能应用方向的研发工作。陈博于2008年毕业于北京邮电大学,获得工学博士学位,主要研究方向为机器学习、自然语言处理、信息检索;毕业后曾先后就职于NEC中国研究院、中国联通集团总部技术部。

集中运维管理,保障应用基础

作为通信运营商,中国联通早在2010年,就提出了数据大集中策略;2012年,开始组建全国数据中心,涵盖全国所有省份实现了全网数据的统一集中汇聚与管理。目前,联通大数据公司每天的新增数据量达到150TB以上。

为了能高效的处理如此海量的数据,联通大数据目前拥有数千节点的集群,每天要运行10万个以上的处理任务。运维如此大规模数据集群,在业界也是不多见的,对于联通大数据来说,并没有太多可以直接借鉴的外部经验,靠的就是自身建立的一支高效的集群运维管理团队,进行长期24小时不间断的监护、优化。在过去一年中,在日增数据量翻倍、集群资源几乎没有扩容的情况下,通过从集群文件碎片、冗余数据库表、RPC任务管理等多方面的持续优化,使集群的整体资源负载反而下降了近30%,从而为上层大数据应用提供了坚实的基础算力保障。

同时,联通大数据对所有数据业务的开展都是以完全合法、合规为首要前提,内部有着非常严格的安全管理和监控机制,坚持“敏感数据不出门”的原则;对外数据产品与服务更多是基于区域性、群体性的统计分析以及模型加工产生的标签数据,并且任何数据结果的输出都需要经过内部安全网关的层层严格审核,从而为上层大数据应用提供了可靠的安全合规保障。

在此过程中,联通大数据在大规模数据集群运维、海量数据资产管理方面积累了大量的实践经验,逐步总结形成了一整套完善的运维管理机制,在6月初的大数据产业峰会上获得了“2019年星河奖——最佳数据资产管理实践奖”。

构建数智能力,释放应用价值

面对日增上百TB、总量近百PB的海量数据,如何实现大数据的应用价值,陈博认为“大数据企业首先需要对于自身数据的核心价值维度有明确的认识,进而才能清楚如何建立自身的数据能力体系去释放数据的应用价值“。围绕自身的运营商大数据,联通大数据则定义了行为兴趣、位置时序、关系图谱3大数据价值维度,并相应的构建了3大类数智平台能力体系,这背后则用到了诸多NLP、搜索引擎、时空序列、图计算等关键技术。

而在数智平台的每一项能力的构建与应用中,联通大数据的各种数据架构、数据模型、数据算法需要面对的都是PB级的海量数据,既需要考虑算法模型的准确度、有效性,更需要保证在大规模数据上的可用性、稳定性以及运行效率。典型的例如,从万亿级的信令大数据中通过快速排序、迭代进行基站位置工参纠偏;从万亿级位置时序数据中准实时的进行区域、时段关联检索,进而实现线上线下融合洞察推荐;从几亿号卡对应的万亿级信令中发现群体聚合,进而进行黑灰产风险号卡识别;从十亿级顶点、数百亿关系边的图谱中,进行N度关联群体发掘,进而辅助用于企业经营位置识别等等。这些能力的构建、应用的实现,凭借的则是自身组建的一支涵盖数据分析、数据建模、AI应用等多方面能力的高素质、高效能的数据科学团队。

通过这3大类数智平台能力的组合,支撑了上层的广告、风控、洞察、舆情等标准产品,以及金融、政务、文旅、公安等各类行业应用,已经形成了丰富的大数据智能应用案例与落地成果,实现了“大数据”到“大价值”的转化。

汇聚能力资源,赋能行业升级

联通大数据已经构建了强大的数据连接、运维、治理、分析、应用、服务能力,构成了作为一家大数据科技企业快速发展的动力引擎。而在此之上,我们更希望通过开放合作,与各行业伙伴共同成长。

一方面,我们将自身在集群运维、数据治理、模型构建方面多年的运营实践经验,梳理为模式化、流程化、产品化的大数据平台建设方案进行能力输出,已经帮助政府、电力、银行、教育、旅游、邮政等多个行业的合作伙伴搭建了自有的大数据平台、应用系统,赋能行业合作伙伴快速构建大数据应用基础。

另一方面,联通大数据基于自有资源,推出了面向外部合作伙伴的能力开放平台,以多租户的形式为每个合作方提供“算力+数据+服务”的脱敏、安全、个性化的开发训练环境;合作方开发完的模型、应用,经过安全测试后即可封装部署在联通数智平台上,通过安全网关形成能力输出,赋能行业合作伙伴构建丰富的大数据应用能力。

面向5G未来,数智赋能生长

谈到未来的发展方向,陈博表示,5G时代将至,未来连接的增长将不再主要是个人通信领域,而更多是物与物之间的连接,连接数量将会达到数百亿、上千亿的量级,涉及的领域也将覆盖智能穿戴、智能家居、工业监控、自动驾驶等各个行业、领域。未来5G时代的大数据,无论在数据量级、时间/空间密度,还是价值维度上都将会有从量到质的增长变化,但这将是一个逐渐发展的过程。因此,联通大数据将紧密跟随5G发展步伐,关注各个行业发展态势,秉持“开放生态,合作共赢”的理念,携手行业合作伙伴,挖掘行业的应用价值,继续以“大数据+AI”的数智能力赋能未来行业生长。

【凡本网注明来源非中国IDC圈的作品,均转载自其它媒体,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。】

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2022-12-15 10:11:31
运营商 广东电信携手联通开通全国首个共建共享低频5G基站
该基站充分利用低频900M、800M等频段强穿透、远传输、成本低等特性,进一步完善覆盖广度和深度,为用户提供更优质的5G网络服务。 <详情>
2022-12-08 08:23:33
运营商 联通智网科技分拆上市,有望实现多元化发展
分拆上市能够给予股东更大的回报,但公司也将就此步入复杂凶险的资本市场,而公司管理层需要更强的运作能力。 <详情>
2022-04-20 09:21:44
大数据资讯 浪潮李龙翔:多层数据访问优化 应对超大规模系统挑战
4月9日-13日,第十三届国际性能工程学大会(ICPE2022)在线召开。此次大会涉及AI建模及算法、算力提升、能效测量、新型计算架构、体系结构研究等多个主题。 <详情>
2022-03-24 10:20:00
大数据资讯 大数据技术的五大核心原理
互联网和大数据的发展,是一个从人找信息,到信息找人的过程 <详情>
2022-01-13 16:15:02
市场情报 悠易互通CTO李旸:洞察2022营销技术发展趋势
品牌与潜客沟通时,推荐什么样的内容,采用什么样的创意、什么样的素材、什么样的文案、什么样的落地页等等,这些都可以通过个性化的方式去实现,并达到很好的沟通效果。 <详情>