当前位置:首页 > 数据中心 > 正文

数据中心基础运维主要知识点(数据中心基础设施运维管理)


一、数据中心运维需要具备哪些知识和能力运维工程师熟悉tcpip协议系列,熟练配置Cisco、华为网络。可以参考其他厂家的设备配置手册,包括安全设备,熟悉服务器硬件系统配置、操作系统、Unix、Linux、windows等,并配置其运行的安装和检测等。熟悉常见的应用如webftp、email等服务设置,熟悉常见的系统安全设置以及整个安全架构。配置和维护共享数据库,例如oraclemysqlsql-server。您对存储有一定的了解。。。。。。。您应该了解与服务器环境相关的事情,尤其是与网络相关的事情。熟悉服务器的硬件配置。熟悉操作系统和不同应用系统在服务器上常见的故障发生情况。不要求你精通内核调优等,但你确实有全面的知识,并且有一两项你擅长的技能


二、如何进行数据中心基础设施的管理

设备是数据中心基础设施的子集,设备维护是保证基础设施稳定运行的重要措施。设备维护工作主要包括制定维护程序、进行预防性维护、管理维护档案和处理故障等。

运维流程是设备维护的指导和依据。数据中心管理人员首先要保证每个维护流程的准确性、完整性和完整性,同时要反复进行培训和演练,使运维人员充分熟悉和理解流程,并在实际工作中严格执行。

操作和维护流程通常包括三大类:标准操作程序(SOP)、维护工作程序(MOP)和紧急操作程序(EOP)。

1.通俗地说,标准操作流程是指启动和关闭设备的步骤。数据中心中的每种设备型号都必须有一个SOP。这里值得一提的是,同一类型的设备可以有不同的型号。例如,空调系统可以具有60kW和80kW两种制冷能力。不同型号的设备,其SOP的操作步骤可能有所不同。

2.维护过程包括设备维护、保养、预防性检查等过程内容。通常,MOP包含SOP条目,因为经常需要执行开机和关机操作。对于主要设备,每个型号必须有SOP和MOP;辅助设备(阀门等)可以进行分类和定义,每种类型都有单独的SOP和MOP。

3.每个数据中心至少应有7至10个应急程序(EOP),主要涉及停电、空调故障、火灾、防洪、安全、信息安全等域。当数据中心发生异常情况时,这通常是多系统响应和多位专家的共同努力。因此,在日常训练和演练中必须启动多种应急预案,为实践中可能出现的情况做好充足的准备。