当前位置:首页 > 数据中心 > 正文

数据中心基础设施巡检工作


一、如何做好数据中心基础设施运维工作

基础设施运维主要从以下几个方面着手:

1.机房管理:

管理机房人员的访问(包括管理工具如:访问人员管理流程、审批访问申请等)

管理机房设备的访问,例如:访问人员管理流程、审批访问申请等。接入应用、设备冗余电源要求,最重要的是机房设备台账)

机房承重(可以通过调整入口设备重量来降低承重风险)

机房环境温度湿度管理(通过巡检记录管理)

计算机机房电源管理(通过巡检记录管理)

2.机房灾难恢复
制定机房应急预案,包括但不限于制冷故障应急预案。单通道停运应急预案

内容来源:ITSS合规评估实施工具-云雀运维!!!


二、数据中心机房巡检管理该检查什么

那么,一般来说,数据中心机房巡检管理应该检查哪些内容呢?一般来说,数据中心的检查包括:检查服务器、备份系统数据库以及检查数据机房的网络设备和测试公司的网络状况。此外,要立即查找、发现网络和信息系统设备隐患并排除故障。

以下是某公司数据中心机房巡检和管理的具体要求,供大家参考。

1检查期间,进行状态检查如果发现问题,如数据机房物理环境异常、设备状态异常、网络或应用系统故障等,应进行恢复操作。立即按照操作流程进行。(1)电源及UPS:检查机房的供电状态、UPS的工作情况及指示状态。(2)服务器:检查服务器是否宕机,服务器(磁盘阵列)硬盘指示灯是否正常。(3)机房环境:检查机房空调工作状态和机房温度。(4)网络设备:检查网络设备,包括交换机、路由器、防火墙等及相关设备。检查设备的工作状态。(5)网络通道:检查内外网络通道状态,包括公司内部LAN、公司与INTERNET、公司到各合作单位的网络通道状态。(6)电话通道:检查电话系统通讯和手机通讯是否畅通。(7)SQLSERVER2005数据库:检查信息系统数据库服务是否正常。

2如果故障无法按照恢复流程有效恢复,特别是机房环境(电力、空调)发生且关键设备、网络、系统和服务无法恢复时。及时通知总经理。经理和其他相关经理将协调源来处理错误。

3故障排除过程必须详细记录在机房日常巡检表备注栏中,以供参考。


三、数据中心运维工程师是做什么的负责机房基础设施和设备的日常维护和检查,保证机房环境良好,记录环境和监控数据。
执行日常操作和维护工作计划,包括安装、调试、维护和故障排除。
对机房设备进行数据监控,及时响应故障,跟踪故障处理进度,及时制定问题报告。
负责数据中心云平台的运维,包括业务开通、迁移、优化、故障处理等售后服务。
制定运营和数据中心维护规范和流程并进行优化,以提高工作效率和服务质量。
负责数据中心网络安全防御系统的运维和实验室的日常网络信息安全管理。
负责数据中心配电、空调、消防等基础设施的综合运维。
负责数据中心机房各项硬件升级、变更、改造项目的实施。
收集日常运维数据,管理相关运维文档,进行网络状态检查、每周故障统计、KPI报警统计等。
研究跟踪最新的数据中心发展和技术趋势,为公司数据中心的管理和升级提出建议。
参与技术规划、技术方案评审以及运营管理系统建设和数据中心基础设施维护。