从银行业联席会议看如何降低分布式云架构运维管理风险

2020-10-10 by uino 272 技术分享

2019年11月28日,由中国人民银行科技司指导,人民银行金融信息中心主办,交通银行数据中心承办的第八届数据中心联席会议在上海召开。会议围绕“分布式和云架构下的运维管理转型”主题开展交流,并组织了“数据中心运营指标体系”、“护网行动实战经验交流”两场专题技术研讨会,部分会议代表实地参观交通银行张江数据中心ECC运营中心和智能机房,观摩交流交行运营管理可视化成果。

回首过去几年,银行业联席会议主题已经从最初的2015年的数据中心灾备体系规划的建设,到2017年的网络安全与网络攻击防范,再到2019年的分布式和云架构下的运维管理转型。

不难发现银行业数据中心有种从当初安稳的活着,到省心的活着,再到今天想精彩的活着的趋势,而这几年也是大小银行面对互联网这轮信息革命面临转型升级比较艰难的几年。

从客户角度来看,伴随互联网发展成长起来的用户更趋于年轻化,并且从传统的线下及桌面端向上、移动端迁移,而且这个趋势还在不断上升。

同时来自互联网金融及金融科技的跨界冲击也不断增强,互联网公司利用用户入口、流量优势、数据分析能力纷纷跨界涉足金融业务领域,突破了时空界限,让金融服务触手科技,改变了以往金融行业洞察用户的方式,并大幅提升了用户体验。

从行业商业模式来看,银行业过去依托对公业务及高净值个人用户,依赖利差为主要收入来源的时代一去不复返,逐步进入真正“以客户为中心”通过更多场景、更多渠道、服务更多人群的普惠金融时代。

面对既熟悉又陌生的客户和突如其来的竞争环境变化,数字化转型已成为银行业的普遍共识,全面深化数字化服务渠道,打造数字化金融产品创新与体验,提升数字化洞察能力,服务长尾及普惠人群,构建与业务发展相匹配的技术平台与新型架构,这些都是银行业数字化转型的必经之路。而银行集中式架构及人工式运维管理模式都面临着诸多困难和挑战。

众所周知,过去的二三十年,以IOE为代表的国外厂商主导着国内银行业的信息科技建设,这些性能稳定、技术成熟、工程化程度高的解决方案,帮助国内银行业快速缩短了与国外发达国家的差距,有力支撑了国内银行业过去发展,然而随着中国银行业自身业务形态的发展,尤其是在互联网浪潮的冲击下,无论是业务产品形态还是业务量,都发生了巨大的变化,比如现在银行最大的压力来源于全天候不间断寻求高质量服务的海量“非高净值个人客户”,有的甚至是街边卖早点的商贩和菜市场的大爷大妈,而他们对银行的体验、业务、渠道的要求又是五花八门,这时IOE技术体系的弊端逐渐显现。

首先,这些商用设备虽然单机性能出众,但其扩展能力有限,性能无法做到线性扩展,只能通过更换更新产品型号来满足,而这种升级过程的复杂度和操作风险都是非常之高。

其次建设成本高昂,IOE厂商又不向客户做技术转移,后期运维工作只能不断购买有偿服务,运维成本一直居高不下。

在安全可控成为国家战略的时代背景下,如何构建一套基于安全可控技术的高性能、高扩展、高可靠性而且低成本的分布式架构,这就需要充分吸收融合互联网技术理念和传统银行过往管理理念,不仅要实现以尽量低成本为银行目标客户群提供高质量、稳定、高性能的银行服务又要符合银行自身安全可控的新一代银行架构。我们认为新一代银行IT架构应当遵循高可用、低风险、高规范、高性能、高弹性、低成本六大原则。

而新一代银行IT架构的建设并不是一项单纯的技术开发工作,同时是一项科技运营管理的创新,它将催生新的科技管理思想和运营管理体制,并通过管理体系与先进技术的运用、组织架构和人员的调整与配置来贯彻落实。

虽然分布式架构解决了基于互联网+的普惠金融战略的问题,但是其运维工作量却是传统银行架构的几十倍甚至几百倍,相较于互联网企业而言,银行系统的复杂度、风险管控、用户对有损服务的接口程度要求更高,国内外也没有先例可以借鉴,因此此次联席会议通过聚焦银行业在分布式和云架构等新技术转型下,如何降低数据中心在安全生产和运行管理方面的风险。

一方面会议指出数据中心需要通过统筹推进制度、流程、技术整合,建立分布式治理机制,建立完善智能监控分析体系,不断提升运维自动化和智能化水平,实现对架构基础环境、基础技术组件、处理节点及业务应用运营和管理(自动化运维),依托自动化运维采集的数据,为运维工作作出智能决策或建议(智能化运维)。

另一方面会议指出运维管理人员转变运维知识体系,要推动运维人员从架构视角、开发视角看运维,通过可视化手段提升数据中心自主运维的核心技术能力。

交行作为东道主在大会上介绍和展示了他们的运营可视化系统,其中在应急作战指挥地图部分。

通过灵活组装出的围绕应急排障全周期,以时间线串起“人、事、物”的多维度、立体化的应急作战指挥系统,在应急团队、抢修过程、系统架构、运行指标、监控告警、运维操作六大方面进行全方位的数字化和可视化呈现,为应急团队提供完整、清晰的IT数字孪生地图,有效提升各团队协作能力和故障应急处置效率。

当然分布式架构还涉及到对构成分布式架构(分布式数据库、分布式缓存、分布式存储、分布式消息总线、分布式负责均衡网管等)的基础技术运维管理,更需要数字孪生结合大数据处理和人工智能建模分析,实现对过去发生问题的诊断、当前状态的评估以及未来趋势的预测,并给予分析结果,模拟各种可能性,为运维人员提供更全面更易理解的决策支持。