当前位置:首页 > 数据中心 > 正文

数据中心运维团队管理


一、如何做好数据中心基础设施运维工作

基础设施运维主要从以下几个方面入手:

1.机房管理:

机房人员出入管理(含管理工具如:出入人员管理流程、出入申请审批等)

机房设备出入管理(含管理工具)如:设备接入应用、设备双电源要求,最重要的是机房设备台账)

机房承重(可以通过控制重量来降低承重风险)接入设备)

机房环境温湿度管理(通过巡检记录管理)

机房电源管理(通过巡检记录管理)

2.机房容灾
制定机房应急预案,包括但不限于空调故障应急预案。单路停电应急预案

内容来自:ITSS合规性评估实施工具——云雀运维!,,


二、如何进行数据中心基础设施的管理

设备是数据中心基础设施的子集,设备维护是保证基础设施稳定运行的重要措施。设备维护工作主要包括制定维护程序、开展预防性维护工作、管理维护档案和管理故障等。

运维流程是设备维护的指导和依据。数据中心管理人员首先要确保每个维护流程的正确性、完整性和完整性,同时通过重复培训和演练,确保运维人员充分了解和理解流程,并在实际工作中严格执行。

操作和维护流程通常包括三大类:标准操作程序(SOP)、维护操作程序(MOP)和紧急操作程序(EOP)。

1.简单地说,标准操作程序是指启动和关闭设备的步骤。数据中心的每种设备型号都必须有一个SOP。值得记住的是,同一类型的设备可以有不同的型号。例如,空调可以有两种制冷量:60KW和80KW。不同类型的设备启动和关闭的操作步骤可能不同。因此SOP应该根据不同的模型分别编写。

2.维护作业过程包括设备维护、保养、预防性检查等过程内容。一般情况下,MOP都会包含SOP项目,因为如果是维护、保养或者检查,往往需要进行上下班操作。对于主要设备,每个型号必须有一个SOP和一个MOP;辅助设备(阀门等)可以进行分类和定义,每种类型都有单独的SOP和MOP。

3.每个数据中心应至少有7-10个应急操作程序(EOP),主要涉及电源故障、空调故障、消防、洪水、安全、信息安全等方面。当数据中心出现异常情况时,往往是多系统、多专业链路响应。因此,在日常训练和演练中,需要交叉启动多个应急预案,为可能发生的情况做好充分准备。实践中发生。