当前位置:首页 > 数据中心 > 正文

数据中心基础设施运维经验分享


一、IDC机房运维方面是如何做的

1.什么是IDC机房运维?

IDC机房的运维涉及方方面面的问题。它们与其他运维不同,解决的问题都是比较底层的问题。在许多公司中,服务器可能位于专门的IDC机房中,必须由专业人员进行维护。一些大公司有自己的IDC机房,但管理层可能只是网络信息部的一个分部门,但电脑还是很多的。房间管理要面临的问题。IDC机房的运维可以简单概括为五个方面:主机监控、信息统计、硬件维护、系统维护和网络维护。这些问题的解决就在于IDC机房的运维。


二、IDC机房维护工作都有哪些数据中心运维主要分为两大类,一类是基础设施运维,一类是基础环境运维(IaaS类)
以下逐步划分:
1.基础设施运维:
1.1机房管理:
1.1.1机房人员访问管理(管理工具如:人员管理流程包括请求审批访问等)
1.1.2机房设备准入管理(管理工具如:设备输入输出申请、设备双电源要求、最重要的是机房设备的日志)
1.1.3机房承重(负载风险可控制进入机房的设备重量,减少机房重量)
1.1.4机房环境温度、湿度(通过巡检记录管理)
1.1.5机房能源管理(通过巡检记录管理)
1.1.6机房的监控和管理(通过进出机房的人数和1.1.第1章人员进出对比
1.1.7机房线缆管理,即网线(包括存储线缆等)、光纤、电源线管理(内容主要围绕水平与垂直、窄与窄)窄肩带、预留电源线长度等)
执行上述工作的人员素质不必很高,但要记住,领导者(组长、组长)对以上表演者的管理在选择中至关重要。
在开展工作时,工作的原则不需要执行者“动脑子”,即通过制定完善的SOP、完整的交付体系以及可实施的工作流程和管理来指导他问题处理过程
PS:夏天要特别注意,空调的效率会降低。注意并编写应急预案
1.2机房灾难恢复
制定机房应急预案要点包括但不限于空调故障应急预案调节。停电应急预案、环境温湿度高时应急预案等。2、基本环境操作。和维护:
环境的基本运维实际上可以分为周期性工作和非周期性工作。指导思想来自ITSM(itil)
术语解释:
定期工作
服务请求
事件处理
变更管理
问题风险监控记录
2.1周期性工作
所谓周期性工作就是周期性的、重复性的工作,比如:配置备份、账户审核、配置审核、更新各系统操作手册等。不要小看周期性工作,确实,从运维角度来说,这是一项很高的工作内容。如何合理有效地开展周期性工作?在工作中,我们将周期性工作纳入运维日历,对重复性工作进行细分和标准化,通过定义SOP、监控SOP的执行情况、执行团队对SOP使用情况反馈、跟踪等方式进行周期性、重复性工作。进行SOP优化。实施性工作指南。----不知道上面的内容是否已经深入讲解了。如果没有,请留言。
2.2非周期工作(主要包括服务请求、事件处理、变更管理、问题风险监控记录)
本章内容主要围绕流程、SOP和PDCA,那么我们现在需要什么名词定义
定义,服务请求,事件管理,变更管理,问题风险监控记录,如果学过或者了解ITSM的工程师对上面的名字不熟悉的话,我也是。我仔细研究了上面的内容,我的同事和朋友也都了解到了,但是当我们讨论上面的术语时,我们发现一个很大的奇怪就是我们各自的理解不一致,而且这个现象困扰了我们很长一段时间。比如领导让我在AD上创建一个账号,让我去做。这个操作其实很简单,但是应该遵循什么流程呢?
“表演者不需要动脑子。”通过这句话,我突然意识到,如果边界不清晰,那么我们就来定义边界,以及如何定义它。这时候就引入了岗位分类表,即运维。将工作量化,创建服务请求分类表、事件分类表、变更分类表,然后根据机房管理的内容进行工作——不知道上面的内容有没有解释透。如果没有,请留言。
以上内容由福林提供