面向运营的IT运维配置管理
2019-06-26 by uino 8.9K 技术分享

配置管理是IT服务管理的核心流程,为各项运维工作提供准确、一致、规范的配置数据,从而提升数据中心整体运维/运营管理效率。CMDB是配置管理的主要支撑工具,用于存储和管理配置数据。传统CMDB存在建设周期长、成本高、见效慢问题。面向运营的CMDB能够有效缩短建设周期、降低运营成本、更快的发挥配置管理效益。

一、一个鱼缸的启示

前不久公司买了一个大鱼缸,里面有珊瑚、小丑鱼、水晶虾、海星,非常漂亮。可好景不长,一周后鱼缸状态开始变糟,两周后热带鱼一条条死去,珊瑚焦逐渐被海藻吞噬,海星也失踪了…

几万块开的缸,为何不到一个月就变这样,缸里发生了什么?大家百思不得解,于是找来养鱼师傅。师傅看了看,淡淡的说:“开缸容易养缸难”。

原来,专业的养缸方法是这样的:

每天8~10小时灯管照射、持续检查水温

每天检查水位高度、及时补充蒸发掉的水分

每周换水一次,每次换水25%,盐度比重控制在1.022-1.23

滴定调试,测试各主要微量元素数据,PH值保持在7.9-8

定期添加硝化细菌、更换生态棉和活性炭、清理化氮器

鱼和珊瑚不宜过多,否则对水系统负荷太大

师傅走了,但“开缸容易养缸难”这句话久久萦绕于心。如果“水”是“数据”,“珊瑚和鱼”是“收益”,那么养鱼和配置管理是何等相似。

二、开缸易养缸难,CMDB尤其难

就养鱼而言,开缸是容易的,搞个大容器灌满水就行。同样,建设CMDB也不难,搞个数据库,灌进数据就可以了。但大部分CMDB的建设成效并不好,常遇到如下问题:

数据质量问题

数据质量无法满足消费需求是配置管理面临的首要问题,包括数据完整性、准确性和有效性三个方面。完整性和准确性问题指CI的条目和属性信息与IT环境不一致。数据有效性问题指数据格式与标准不一致,无法用于程序运算分析。

数据质量问题应被及时监测和整改,否则会打击消费信心。然而由于配置数据在持续变化且缺乏有效的技术手段,配置管理员往往很难从CMDB中甄别出有缺陷的数据。

使用体验问题

除数据质量外,另一个主要需求是数据能被方便获取、易理解以及可被下游系统调用。传统CMDB虽然具备上述能力,但使用体验较差。比如搜索界面复杂,响应时间长;CI关联关系无法直观呈现,难以理解;数据接口定制开发难等。

很多CMDB存在上述使用体验问题,导致用户更愿意使用Excel或者自建配置库。

运营方法问题

数据质量和使用体验较差的根本原因是缺乏有效的运营。CMDB诞生20年来,人们对它的认识经历了以下几个阶段:

  • 早期,人们认为CMDB就是一个库,把数据扔进去就行,结果却发现产生不了任何价值
  • 后来,人们将CMDB与资产管理、变更管理结合,借此保障数据质量。然而随着运维规模和变更频率的增加,严格的流程管控也越来越难
  • 于是,人们开始尝试自动发现也取得一定效果。但自动发现存在滞后性和技术限制,且维护成本不低,实践效果远没有想象美好。由于资源供应不规范,增量数据依旧得不到控制
  • 今天,很多企业IT终于意识到CMDB数据问题的根源是资源供应。所以利用云管平台、应用自动部署、变更自动化等工具保障配置数据供应的及时性、准确性和规范性可能是解决问题的根本之道。但是企业IT环境非常复杂,短期内自动化手段不可能完全解决问题

我们会发现配置管理是一项复杂工程,任何单一流程和技术都不是其成功的充分条件,要综合运用各种流程和技术手段,而且更重要的是引入运营方法论,指导我们如何站在用户视角设定运营指标,如何持续监测指标的达成情况,如何建立解决问题的跟踪机制,以及如何将CMDB和其他流程、工具平台有机结合,形成从数据供应到治理再到消费的良性数据流生态。

三、面向运营的配置管理

以终为始,设计数据模型和管理范围

CMDB不能直接生产数据,也无法直接交付数据价值。其核心价值在于成就其他运维管理业务,用配置数据帮助他们解决实际问题。然而在建设时,我们往往埋头死磕数据,在用户如何使用数据、除数据外是否还需要其他条件、这些条件短期内能否具备等方面思考不足。

面向运营的管理方法让我们转变思路,从关注“CMDB要管什么数据”变为“CMDB如何帮助用户成功”,并在此基础上设计配置模型和数据管理范围。企业级CMDB产品应具备运营特性,比如Tarsier CMDB可为每个CI属性记录消费场景、价值收益和重要级别。这些都是CI的“元数据”,如果无法明确,则意味着对其价值收益没有想清楚。

基于重要性级别设计数据质量SLA

对数据消费者来说,很自然认为所有配置数据都应该准,但这不现实。IT环境在不断变更,很多信息无法保证被及时更新。事实上,这种需求本身也并非合理。为什么必须准,如果不准有重大影响吗?我们更精细的制定数据质量SLA,比如关键属性准确率95%,重要属性准确率80%,参考属性不保障准确率。具备运营特性的CMDB应能记录这些数据质量要求,并在运营仪表盘中自动呈现达标情况。

用可视化查询语言降低数据获取门槛

数据的可获取性几乎与准确性同样重要。如果用户无法及时得到自己想要的数据,那么数据再准也没用。如何让用户快速获得自己想要的数据?好的办法是让他们自己挑选和组装数据。

据统计,在众多配置数据查询需求中,约85%是关联查询。比如查询应用系统及其关联的服务器、服务器关联的网络和存储设备、还有更复杂的从应用到机房跨越十几层CI分类的查询。针对这类需求,传统做法是写代码,全程费时费力、需求响应极慢且后期维护成本高昂。

为了提升数据获取效率,CMDB应提供一种新型的、可视化的查询语言。比如以Tarsier CMDB为代表的VQL查询语言,能够屏蔽代码的复杂性,用简单的图形拖拽就能编写复杂的关联查询规则,用户可基于VQL自服务挑选和组装数据,全过程减少了沟通成本、等待成本、代码编写和维护成本。

构建运营指标体系和运营仪表盘

良好的运营离不开量化指标。配置管理有两类运营指标:消费活跃度、数据健康度。

  • 消费活跃度是衡量CMDB效益的重要指标,该指标能告诉我们CMDB真实的数据消费情况。比如哪些CI实例、哪些CI属性被频繁的取用,而哪些CI和属性从来没有被访问过。将这些测量结果与模型设计时确定的属性重要性相比对,可能会发现一些有意思的现象,比如一些原本认为关键或重要的CI属性从来没有被消费过
  • 数据健康度是一个指标集合,包含数据准确性、完整性、有效性三个指标。准确性是指CI数据与真实环境不一致,完整性是指CI实例或部分属性遗漏登记,有效性是指数据不符合标准格式。数据健康度应按照属性重要性分别统计,不应混在一起

上述所有指标应被自动化测量,并生成可视化的运营仪表盘,让所有相关利益方能够了解CMDB的真实现状,指引运营团队持续改进。

四、面向运营的IT配置管理的优势

缩短挫折期,让配置管理快速见效

业界CMDB的建设效果普遍不太好,项目建设初期充满期望,之后是漫长的挫折期。很多CMDB将在此期间滞留数年之久。

面向运营的建设方法能够有效缩短挫折期,通过站在用户角度识别真正的运维痛点,让配置团队不再埋头梳理数据,而是时刻关注用户的成功,让每一分努力都创造效益,而不是构建一个完美的数据库。

降低运营成本,好钢用在刀刃上

任何IT组织都无法不计成本的投入资源做CMDB,我们要让已有资源发挥足够大的价值。CMDB应能解放配置团队生产力,通过运营实践固化到产品功能中,快速构建运营指标体系,自动化测量各项指标现状,并在仪表盘可视化呈现,将配置团队从日常繁杂的事务性工作中解脱出来,让他们有更多的精力关注配置数据价值的挖掘和推广。