随着企业的不断发展,业务对运维系统的可用性、性能、可扩展性提出了更高的要求,要解决这些问题便会涉及各种平台的搭建、虚拟化、容器化、持续集成等,这让运维工作面临空前的挑战。大数据与人工智能的出现,为这些运维难题提供了解决思路,由此,“智能运维”的呼声越来越高。
饶琛琳,日志易产品总监,曾任新浪微博系统架构师、大数据运维技术专家,从事运维工作 11 年,精通大规模互联网性能优化、机器数据处理分析以及监控和管理平台的部署开发。
饶琛琳认为,国内运维界在自动化方面已经达到一定的水平,但自动化和监控两部分的衔接还有一定距离。例如,当你拿到了监控类的报警,可能不清楚立马去做哪一项自动化的部署。如果能把自动化和监控这两部分有机的结合起来,运维的工作会运转得更加顺利。
另外,移动化以及微服务的趋势给运维工作带来了一些麻烦和挑战。没有出现微服务之前,运维人员在一台或者两三台机器中就可以完成问题排查。出现微服务之后,启停很方便,这些问题日志可能被拆分到几十个分布式的地方,各自输出,由此便可能遇到在排查问题时出现混淆的情况。解决这些挑战就需要智能运维。
饶琛琳认为,智能运维的理想状态,是将运维的三项工作(监控、管理和故障定位)利用“机器学习”和“人工智能”的技术有机结合起来。在大数据时代,智能运维是基于大数据之上的。运维想要把监控、管理和“故障定位”这三部分有机结合起来,就不可避免地需要用到智能算法,而智能算法则需要大量的数据去做支撑。
“日志易”能够帮助运维人员管理“海量日志数据”,对IT运维日志、业务日志实时采集、搜索、分析和可视化,并提供监控告警功能。不管业务经过多少模块处理,使用“日志易”的用户都可以将所有模块日志进行统一收集展示,进行日志的自动关联查询。“日志易”还提供“上下文查询”功能,运维人员在筛选出问题日志后,可通过“上下文查询”快速提取问题日志的前后各100条日志,实现分钟级故障定位。
日志易:智能运维需要大数据与机器学习的支撑
日志易最新发布的1.10.1版本,引入了机器学习技术,实现了基于聚类算法的日志模式发现。根据搜索结果数据间的相似度,该功能采用聚类算法对日志进行聚类合并,形成一个个包含相似数据的数据集,方便用户在查看种类繁多的搜索结果时,进行快捷的模式行为分析。饶琛琳表示,在未来,“日志易”将进一步提高运维工作效率,让运维更加智能。