设备是数据中心基础设施的子集,设备维护是保证基础设施稳定运行的重要措施。设备维护工作主要包括维护程序的制定、预防性维护工作的执行、维护记录的管理和故障的处理。
运维流程为设备维护提供了方向和依据。数据中心管理人员首先要保证每个维护流程的正确性、完整性和完整性,同时通过培训和演练使运维人员熟悉和理解流程,并在实际工作中严格执行。
操作和维护流程一般包括三大类:标准操作程序(SOP)、维护操作程序(MOP)和紧急操作程序(EOP)。
1.简单来说,标准操作程序是指启动和停止设备的步骤。数据中心内任何型号的设备都必须有一个SOP。这里值得一提的是,同类型的设备可以有不同的型号。例如,空调以有两种制冷量:60KW和80KW。不同类型设备的启动和停止操作步骤可能不同,因此SOP应根据不同型号分别编写。
2.维护作业过程包括设备维护、保养、预防性检查等过程内容。一般MOP都会包含SOP条目,因为无论是维护、保养还是检查,经常需要进行开关机操作。对于主要设备,每个型号必须有SOP和MOP;辅助设备(阀门等)可以进行分类和定义,每种类型都有单独的SOP和MOP。
3.每个数据中心至少应有7-10个应急操作程序(EOP),主要涉及停电、空调故障、火灾、防洪、安全、信息安全等领域。当数据中心出现异常情况时,往往是多系统、多专业的响应。因此,在训练和日常演练中,必须交叉启动多个应急预案,为实践中可能出现的情况做好充分准备。
云运维包括不同方面,基础知识还是很重要的:Linux基础知识、Linux基本命令的使用、shell脚本编程、Linux操作系统(Ubuntu、CentOS系统等)知识。
了解了基础知识后,你可以自己决定以下方向:
1.大数据方向:了解Hadoop(hdfs、yarn等)、Spark、hbase、Hive、Storm等
2.虚拟技术:openstack、kvm、nova、docker、vmware、xen等
3.应用:mysql、redis、memcached、sqlserver
4.了解当前云提供商的业务:阿里云、腾讯云、京东云、金山云、AWS等。
5.脚本开发(必须是DevOps):python、ruby
6.常用运维工具:Jenkins、Chef、Puppet、Ansible等
上一篇:数据中心运维管理方案
下一篇:数据中心基础设施运维管理指南