如何应对容器和微服务带来的IT监控挑战
2020-10-10 by uino 9.6K 技术分享

IT监控作为IT的伴生系统,应对了各种IT技术发展带来的挑战,然而在容器和微服务的时代到来之际,IT监控会面临哪些挑战?又应该如何应对呢?

一、IT监控的现状

01.规模增大,IT系统越发复杂

现在企业的IT环境早已不是少量几台服务器就可以支撑的,各企业IT团队都需要应对各种IT复杂的环境:物理机、虚拟机、IAAS、PASS、各种应用等。而近两年微服务和容器等技术的发展,让基础设施的管理对象越来越多,也越来越分散;同时敏捷迭代的思维,上层的应用程序发布节奏也更加频繁。当这些因素叠加在一起,就造成了企业IT监控的数据量以指数级的增加,以至于远远超出了“人类”的处理能力。

02.精细化“全栈”监控时代已经到来

为了应对现代IT系统的复杂性,绝大多数企业已经放弃传统“一刀切”的单维监控方案,转而投向立体分散的“全栈”监控方法。如今IT系统的监控平均要使用大约6-8个工具,其中至少包括:系统监控、用户行为监控、APM、错误检测、日志分析、网络监控、ITSM工单系统。因为各种工具相互割裂缺乏有效的整合,工程师需要不断地对各种屏幕和仪表板进行操作。

二、IT监控需要面对的挑战

01.告警风暴频发

不断增加的工具数量与所需要处理的庞大数据相结合后,必然出现海量告警数据,从而导致告警风暴问题。每当发生故障时,IT团队都被来自多个监控工具的告警所淹没,但却没有任何关于整体问题的归纳。这样不仅难以快速检测和分类问题,而且还阻碍IT团队发现可能更为严重的问题。

02. 运维壁垒显现

运维部门常会碰到以下场景:核心业务系统不能正常访问,大家都不知道问题出在哪,只能将各领域人员召集到一起分析。各管理员往往有自己独立的监控平台,大家各自为政分头检查,没有人能知道完整的总体情况,导致系统的恢复时间较长,给企业带来负面影响。监控数据层面,各领域监控数据割离,不能集中分析和展现,无法深入挖掘运维价值。怎么第一时间全面掌握IT各领域系统运行状况,及时发现系统隐患和问题?

03. 事件处理低效

业务对IT运维精细化要求越来越高,精细化的运维必然要求对海量运维数据的实时深入分析,这样也就带来了大量的数据采集,从不同维度对管理对象进行监控,从而产生大量的事件数据。在有限的人力情况下,如何高效的采集、存储、分析处理和展现大量事件数据?并且避免传统集中监控平台在事件量太大造成告警延迟和丢失问题。

三、新一代IT监控的能力需求

01.监控事件的汇聚与处理

  1. **事件汇总:**汇总不同层级、不同专业、不同类型的事件是集中监控的基础,无论是底层的动环、传输、网络、主机,中间层的操作系统、中间件、数据库,还是上层的应用都应该进行汇聚接入到统一事件台。

  2. **事件归集:**IT系统之间复杂的关联性和全面立体的监控体系背景下,一个故障会触发多类指标的告警,同一个指标在故障未解除前也会重复产生大量的告警事件。如果将全部事件都展示出来,那对于监控处理人员将是“灾难性”的,所以需要进行事件按照不同维度的归集。

  3. **事件重定级:**对于不同的事件不仅需要有适当层次的事件分级,同时也应在故障时段内事件的变化态势,以及IT系统架构的健壮性方面,更加智能的完成事件重定级策略。事件分级是将事件当前紧急程度进行标识显示,事件重定级是从时间、架构、指标等多维度的度量后对事件的级别给予二次定义,让运维人员的宝贵时间可以投入到更有价值的事务中。

02.监控数据的可视化

  1. **统一可视化:**统一展示不同来源的事件,支持不同角色用户管理不同的事件,包括事件的确认、通知、屏蔽、转工单等闭环操作,无需在不同监控工具上多次操作。

  2. **事件策略可视化:**能够将每一个事件处理策略由过去“黑盒”,转变为整个运维团队都可以查看、定义透明的“水晶盒”。

  3. **处理过程可视化:**不仅事件处理策略运维团队能够共享,对于事件处理的过程与指标也应该共享给整个运维团队,以便于不同领域的管理员可以从自身业务出发来对这些事件处理给予评估及优化。

  4. **故障分析可视化:**在故障出现后需要能够快速的展示应用与应用、事件与事件之间的关联关系,以便于运维人员能够快速完成故障的定位与处理。

03.运营工作的持续投入

对于IT监控的标杆企业,虽然监控的对象、环境各不相同,但是他们有一个共同的特点——对监控系统运营工作的持续投入。例如:由专人负责告警治理,统计事件情况,分析事件风暴的原因并形成告警策略,对告警进行过滤、压缩、关联、归集等策略设定及验证,并且会遵照PDCA循环方式不断地对策略优化,经过一段事件的运营后,需要人工处理的事件,会下降至原始事件的10%至20%。为了更好的完成运营工作就要求监控平台能为监控运营分析提供“武器与弹药”,能够提供从各个维度为运营人员提供数据和分析工具。

四、新一代IT监控解决方案带来的收益

01.提升处理效率

通过事件归集智能地将警报分组和关联到相关事件中,依靠事件时序图和业务架构图模式,可以从时间和空间两个维度进行故障定位,从而更容易地发现关键问题并找出根本原因。此外通过告警归集将获得事件的完整关联信息,而不仅仅是单个告警的信息。例如,可以让您快速发现整个集群遇到了磁盘问题,而不是浪费时间来分析单个主机的磁盘I / O警报。可以避免故障处理时间的浪费,提升故障处理时效。

02.提高监控能效

在遵照PDCA循环方式进行监控的持续运营过程中,大量无效事件会被过滤、压缩,事件信息会更加丰富,事件之间的关联关系也将更加清晰。使得监控管理员可以关注真正需要处理的故障,并且方便获取与故障相关的信息,从而不断提高监控效能。