疫情当下,如何减少人员轻松实现网络基础设施管理?
背景:自2019年新冠疫情爆发,至今已近三年时间,疫情扰乱了我们的正常的工作和生活秩序,纵观2022年魔都–上海、帝都–北京,两场新冠疫情严重影响了生活生产秩序的有效进行,城市突然按下了“暂停键”,在过去的30多天里,有很多数据中心运维工程师经历了“机房生活”,条件艰苦,一个人做一个部门的工作,十几个人担起一个数据中心,甚至一个人兼职多部门作业,没有专门睡觉或淋浴的地方,把垫子和睡袋直接铺在过道上休息。
疫情防控形势严峻复杂,企业都积极响应政府要求落实居家办公,面对瞬息万变的疫情,我们除了做好防护外,必须有所准备,必须适应。
“ 作为一名运维从业者,必须要讲讲疫情为运维工作带来了哪些变化!”
01
疫情给运维工作带来的变化

首先就是人员精简,在疫情期间,为了避免聚集性疫情,大部分数据中心都采用AB岗轮班制、核心岗最小化办公或是现场封闭办公、居家协同,到岗率从原先的100%精简到50%,甚至不到10%。


02
如何应对以上变化?
例如本次北京疫情,某数据中心借助nVisual网络基础设施管理软件实现远程查看机房情况,网络部的同事在居家办公时发现业务异常后通过工单告知现场运维部同事实现远程配合排障。


疫情当下,在日常作业中因为有了以上信息,知道重点业务由哪些设备承载,就可以实现重点业务重点保障、重点设备重点巡检,从而减少重大事故发生的几率,也规避有限人力资源浪费。
并且在发生故障时,有迹可循,循到的资料也能轻松看懂并掌握,利用现有数据以及历史故障记录等信息实现快速排障。居家办公的同事也可通过VPN远程访问nVisual了解数据中心现场情况,配合高效处理,减少企业损失。

数据量的增加,不可避免新需求增加,当数据中心需要新设备上架时,通过nVisual内嵌的智能引导工具,即可实现傻瓜式作业,人只需要配合手动上架即可,规划其合理性、最优最短路径、配置线缆类型等工作都可由软件代替。
通过以上手段提高突发疫情情况下,有限的运维工程师工作效率,让其时间集中于有意义的保障工作,而不是把时间浪费在四处抓瞎、多部门通信协同之下,要知道,在金融行业,一旦出现故障,损失可是以秒而计的。

以上只是疫情突发的临时保障措施,疫情来势汹汹是没有预警的,企业唯一能做的,就是提前做好准备,这样当突发情况从天而降时,才能保障业务通畅、安全、平稳。

在整个数据中心生命周期中,数据中心运维管理是历时最长的一个阶段。运维管理是数据中心保障业务的重中之重,以前企业或是数据中心管理者总是将此重任寄望于“人”,但是人是不可控的、是有极限的、人与人之间也是有差异化的、能力也是参差不齐的,单纯依靠老师傅的切身经验口口相传,不如建立一套规范化、流程化的运维体系,将网络基础设施这样宝贵的资源数据记录在可控的服务器之中,这样就算疫情中在数据中心内部是新来的运维工程师,对目前数据中心情况不清晰,他也可以通过历史资料、设备信息快速掌握数据中心资源信息,快速投入到工作之中为企业带来价值。而不是由企业花费大量的时间,占用老员工工作时间用来“口口相传”。

随着互联网发展的不断深入和互联网应用的不断多元化,互联网数据规模呈指数级增长,对互联网数据中心的需求也将呈现指数级的增长。为满足当前互联网基础设施的需求,数据中心还将不断进行扩建,数据中心规模仍将保持上升的态势,这就对数据中心建设规模、承载业务以及存储与计算等技术提出了更高的要求,我们不应该再以老思路加上非常难维护的单机excel表格来管理我们的数据中心了,网络基础设施少说成百上千,端口、链路成千上万,人海战术能保障excel和CAD图纸上数据三五年的准确性,十几年呢?几十年呢?要知道我国通信技术日新月异,一个数据中心的投入使用可远不止三五年。相信在此次疫情之中,应当有不少运维工程师为了找寻故障点、调取资料等事情挠破了头,打遍了电话吧……

小结
目前,一切生产生活在平稳有序的恢复之中,企业数据中心管理者绝不可掉以轻心,势必要从中吸取经验,防患于未然,数据中心事故基本都是“不鸣则已,一鸣惊人”,安全生产,防大于治,选用nVisual网络基础设施管理平台为企业的业务运行浇筑起“铜墙铁壁”亦是大有裨益。