随着移动互联网、物联网、云计算的兴起,以及移动智能终端的快速普及,数据信息将成为企业战略资产,对内可服务于市场精确营销、网络保障优化、企业经营决策,对外可提供数据服务。

目前,大数据运维存在短板:一方面,数据时效性难满足企业对业务实时监控的需求,多厂家产品制式不统一,难以统一运维;另一方面,查询和分析用户访问日志、定位故障原因主要依赖于登录节点服务器,效率偏低。本文从数据采集、汇聚、清洗、应用全程实现业务数据运营方面分析,以期降低系统建设和运营成本。

研究概述

数据采集

数据采集智能优化如图1所示,从数据源方面来看,可以从DPI、3A、NAT、DNS、综合资管、软探针六类数据源采集大数据,接口方式为FTP。其中,DPI、NAT以准实时的方式接入,时延小于1分钟,3A数据以15分钟粒度接入。利用智能扫描变化日志,实现智能传送,解决传统文件对接时延过高问题。

 image.png

图1 数据采集智能优化

数据稽核

数据清洗核查与整改思路如图2所示,本文设计了数据先清洗入库,再核查整改的机制。通过程序自动化稽查,确保数据采集的准确性。

图片1.png

图2  数据清洗核查与整改思路

数据清洗规则样例如图3所示,基于标准的正则语法进行后台配置和管理,可动态配置。

image.png

图3  数据清洗规则样例

数据稽核过程如图4所示,数据文件稽核即对文件传输数据粒度、文件名称、文件大小进行稽核,防止异常数据入库、关键数据文件丢失。数据内容有效性稽核即对文件的空字段进行标识,以及对字段数值异常超限进行判识。

图片1.png

图4  数据稽核过程

数据建模与存储

通过分析大数据的特点,对数据进行分层存储。数据存储设计如图5所示,包括原始数据层、基础数据层、轻度汇总层、应用数据层。根据每一层相应的数据特点,设置不同的存储周期。对每一层设定相应的命名规范,如原始数据层的命名规范是:业务域_数据系统_协议类型_STD,轻度汇总层的命名规范是:SD_协议类型_汇总粒度,以此对表进行统一而规范的管理。

image.png

图5  数据存储设计

数据存储的规则如下:在原始数据层,存储和采集层完全一样的数据,便于数据的溯源;在基础数据层,存储了由原始数据层进行简单数据清洗后剩余的标准数据,几乎保留全量数据;在轻度汇总层,采用大宽表的设计思路,关联不同来源的数据,保留尽量多的维度信息,这样做的优点是建模数据可共享,汇总维度通用性高,节省了计算和存储资源;应用数据层是根据不同的业务需求,存储不同维度、不同粒度的数据,供应用层直接使用。

数据应用

利用搜索引擎、统一规范、异步处理技术实现数据应用。首先,利用搜索引擎进行内存查询,可以提升数据处理效率;其次,规范统一管理多厂家数据,有利于对日志规范字段、统一归档处理、统一呈现,并解决多厂家的集中管理问题;最后,利用消息队列kafka集群实现异步日志消费,完成海量日志数据的处理。

建立多租户管理机制

建立多租户管理机制有助于实现多人共同开发,资源相互隔离。例如,吉林移动对接了多种不同的大数据源,支撑“家宽”端到端性能管理、DNS日志分析等多套不同的上层应用,需要多人同时基于大数据平台进行数据处理流程的开发。基于Hadoop的组件Ranger建立了多租户管理机制,给不同的租户分配不同的存储资源以及计算资源。同时,同一项目组下的用户可以共同开发相同的数据处理流程,且不同的项目之间资源隔离,包括存储资源和计算资源。

应用案例

目前,吉林省大数据平台中集群规模有90个节点,拥有大数据批处理与流处理的能力,可以完成日均10T的多种数据源的接入,以及不同数据源的数据清洗、数据核查、数据存储、数据分析、宽表合成、维表计算等多种工作。合成了用户账号级别的详细话单,分别以小时粒度及日粒度出具各种维表,满足业务性能分析的要求。

家宽端到端数据分析

大数据平台实现了家宽数据的集中管理与统一分析。实现用户溯源功能,质差网元、质差小区、质差内容源的分析功能,出口数据分析以及内容运营数据分析功能。

面向省市两级,在“家宽”发展、场景保障、日常监控、资源考核等方面提供了强有力的支撑。

在“家宽”全景视图场景中,可以实时监控活跃用户数及分布、“家宽”服务大比率,以及累计用户数量、昨日开户数、退网数,并分析3A认证失败原因等。

在综合业务区接入视图方面,基于GIS地图实现汇聚机房、光交箱、管道路由、综合业务接入区的图层呈现;观测每个居民小区“家宽”用户开通情况。

保障视图则是基于GIS地图呈现传输光缆段(一干、二干、本地骨干、本地汇聚、本地接入),实时呈现基站退服及传输网元告警,并通过地图圈选功能划定因光缆中断影响的基站范围。

跨专业运维支撑

大数据平台支持跨专业运维,可以为无线专业、核心网专业、地市运维、互联网专业、IP专业等人员提供网元侧问题排查的数据,快速定位问题。同时,可以提升业务感知,针对用户投诉、访问质量等问题,利用数据支撑各专业人员进行问题排查。

大数据平台能实现集中性能分析,主要通过话单的规则判定质差,涉及无线、核心网等多个专业,通过数据分析支撑各专业的问题处理。例如,某核心网元的咪咕阅读业务HTTP成功率低,排查核心网设备问题后,需获取业务的性能数据,最终,利用DNS日志、投诉分析、资源管理等模块,对服务器、域名分析进行核查,查到了问题所在。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>