随着移动互联网、物联网、云计算的兴起,以及移动智能终端的快速普及,数据信息将成为企业战略资产,对内可服务于市场精确营销、网络保障优化、企业经营决策,对外可提供数据服务。
目前,大数据运维存在短板:一方面,数据时效性难满足企业对业务实时监控的需求,多厂家产品制式不统一,难以统一运维;另一方面,查询和分析用户访问日志、定位故障原因主要依赖于登录节点服务器,效率偏低。本文从数据采集、汇聚、清洗、应用全程实现业务数据运营方面分析,以期降低系统建设和运营成本。
研究概述
数据采集
数据采集智能优化如图1所示,从数据源方面来看,可以从DPI、3A、NAT、DNS、综合资管、软探针六类数据源采集大数据,接口方式为FTP。其中,DPI、NAT以准实时的方式接入,时延小于1分钟,3A数据以15分钟粒度接入。利用智能扫描变化日志,实现智能传送,解决传统文件对接时延过高问题。
图1 数据采集智能优化
数据稽核
数据清洗核查与整改思路如图2所示,本文设计了数据先清洗入库,再核查整改的机制。通过程序自动化稽查,确保数据采集的准确性。
图2 数据清洗核查与整改思路
数据清洗规则样例如图3所示,基于标准的正则语法进行后台配置和管理,可动态配置。
图3 数据清洗规则样例
数据稽核过程如图4所示,数据文件稽核即对文件传输数据粒度、文件名称、文件大小进行稽核,防止异常数据入库、关键数据文件丢失。数据内容有效性稽核即对文件的空字段进行标识,以及对字段数值异常超限进行判识。
图4 数据稽核过程
数据建模与存储
通过分析大数据的特点,对数据进行分层存储。数据存储设计如图5所示,包括原始数据层、基础数据层、轻度汇总层、应用数据层。根据每一层相应的数据特点,设置不同的存储周期。对每一层设定相应的命名规范,如原始数据层的命名规范是:业务域_数据系统_协议类型_STD,轻度汇总层的命名规范是:SD_协议类型_汇总粒度,以此对表进行统一而规范的管理。
图5 数据存储设计
数据存储的规则如下:在原始数据层,存储和采集层完全一样的数据,便于数据的溯源;在基础数据层,存储了由原始数据层进行简单数据清洗后剩余的标准数据,几乎保留全量数据;在轻度汇总层,采用大宽表的设计思路,关联不同来源的数据,保留尽量多的维度信息,这样做的优点是建模数据可共享,汇总维度通用性高,节省了计算和存储资源;应用数据层是根据不同的业务需求,存储不同维度、不同粒度的数据,供应用层直接使用。
数据应用
利用搜索引擎、统一规范、异步处理技术实现数据应用。首先,利用搜索引擎进行内存查询,可以提升数据处理效率;其次,规范统一管理多厂家数据,有利于对日志规范字段、统一归档处理、统一呈现,并解决多厂家的集中管理问题;最后,利用消息队列kafka集群实现异步日志消费,完成海量日志数据的处理。
建立多租户管理机制
建立多租户管理机制有助于实现多人共同开发,资源相互隔离。例如,吉林移动对接了多种不同的大数据源,支撑“家宽”端到端性能管理、DNS日志分析等多套不同的上层应用,需要多人同时基于大数据平台进行数据处理流程的开发。基于Hadoop的组件Ranger建立了多租户管理机制,给不同的租户分配不同的存储资源以及计算资源。同时,同一项目组下的用户可以共同开发相同的数据处理流程,且不同的项目之间资源隔离,包括存储资源和计算资源。
应用案例
目前,吉林省大数据平台中集群规模有90个节点,拥有大数据批处理与流处理的能力,可以完成日均10T的多种数据源的接入,以及不同数据源的数据清洗、数据核查、数据存储、数据分析、宽表合成、维表计算等多种工作。合成了用户账号级别的详细话单,分别以小时粒度及日粒度出具各种维表,满足业务性能分析的要求。
家宽端到端数据分析
大数据平台实现了家宽数据的集中管理与统一分析。实现用户溯源功能,质差网元、质差小区、质差内容源的分析功能,出口数据分析以及内容运营数据分析功能。
面向省市两级,在“家宽”发展、场景保障、日常监控、资源考核等方面提供了强有力的支撑。
在“家宽”全景视图场景中,可以实时监控活跃用户数及分布、“家宽”服务大比率,以及累计用户数量、昨日开户数、退网数,并分析3A认证失败原因等。
在综合业务区接入视图方面,基于GIS地图实现汇聚机房、光交箱、管道路由、综合业务接入区的图层呈现;观测每个居民小区“家宽”用户开通情况。
保障视图则是基于GIS地图呈现传输光缆段(一干、二干、本地骨干、本地汇聚、本地接入),实时呈现基站退服及传输网元告警,并通过地图圈选功能划定因光缆中断影响的基站范围。
跨专业运维支撑
大数据平台支持跨专业运维,可以为无线专业、核心网专业、地市运维、互联网专业、IP专业等人员提供网元侧问题排查的数据,快速定位问题。同时,可以提升业务感知,针对用户投诉、访问质量等问题,利用数据支撑各专业人员进行问题排查。
大数据平台能实现集中性能分析,主要通过话单的规则判定质差,涉及无线、核心网等多个专业,通过数据分析支撑各专业的问题处理。例如,某核心网元的咪咕阅读业务HTTP成功率低,排查核心网设备问题后,需获取业务的性能数据,最终,利用DNS日志、投诉分析、资源管理等模块,对服务器、域名分析进行核查,查到了问题所在。