当前位置:首页 > 数据中心 > 正文

数据中心基础设施运维思路(数据中心基础设施运维经验分享)

云数据中心运维体系建设包括哪些系统
数据中心系统的总体设计思想是以数据为中心,根据数据中心系统的内在关系进行划分。数据中心整体体系结构由基础设施层、信息资源层、应用支撑层、应用层、支撑系统五个主要部分组成。如下:
数据中心整体架构
数据中心整体系统架构
数据中心从顶层规划整体技术架构,设计技术路径和方法,并确保网络、数据资源与应用系统、安全系统等要素形成有机整体,实现企业数据资源(机构)的管理与信息及时监控、汇总和分析的联动。具体各层介绍如下:
(1)基础设施层
基础设施层是指支撑整个系统的底层介质,包括机房、主机、存储、网络通信环境、各种系统硬件等。和软件。
(二)信息资源层
信息资源层包括数据中心内的各类数据、数据库和数据仓库。负责整个数据中心的数据信息存储和规划,涵盖信息资源层规划和数据。流程定义为数据中心提供统一的数据交换平台。
(3)应用支撑层
应用支撑层创建应用层所需的各种组件是根据组件设计思想和复用需求提出和设计的,也包括购买的第三方组件。
(四)应用层
应用层是指为数据中心定制开发的应用系统。包括标准构建应用、采集集成应用、数据服务应用、管理运营应用以及服务于各类对象的企业信息门户(包括内网门户和外网门户)。
(五)支撑系统
支撑系统包括标准规范系统、运维管理系统、安全保障系统、容灾备份系统。传统数据中心系统中,灾备份系统隶属于安全系统。随着数据状态的改善,灾难恢复和备份本身已经成为一个系统。安全保障体系侧重于数据中心的立体防护,容灾备份体系侧重于数据中心的数据和容灾。

如何进行数据中心基础设施的管理

设备是数据中心基础设施的子集,设备的维护是保证基础设施稳定运行的重要措施。设备维护工作主要包括制定维护程序、进行预防性维护工作、管理维护档案和处理缺陷。

运维流程是设备维护的指南和依据。数据中心管理人员首先要保证任何维护流程的正确性、完整性和全面性,同时通过反复的培训和演练使运维人员充分熟悉和理解流程,并在实际工作中严格执行。

运维流程通常包括三大类:标准操作程序(SOP)、维护操作程序(MOP)和紧急操作程序(EOP)。

1.简单来说,标准操作程序是指启动和关闭设备的步骤。数据中心的每种设备型号都应该有一个SOP。这里值得一提的是,同一类型的设备可能有不同的型号,例如空调可能有两种制冷量:60KW和80KW,不同类型的设备开启和关闭的操作步骤可能不同。所以SOP必须根据不同的模型,分别编写。

2.维护作业过程包括设备维护、保养、预防性检查等过程内容。一般MOP都会包含SOP条目,因为如果是维护、保养或者检查,往往需要执行开机、关机的功能。对于主要设备,每个型号都必须有SOP和MOP;辅助设备(阀门等)可以进行分类和定义,每种类型都有单独的SOP和MOP。

3.每个数据中心至少应有7至10个应急操作程序(EOP),主要涉及停电、空调故障、火灾、防洪、安全、信息安全等方面。当数据中心出现异常情况时,往往是多系统、多专业协同响应。因此,在日常训练和演练中,必须交叉启动多种应急预案,为实践中可能出现的情况做好充足的准备。

如何提高运维管理工作效率?
1、从目标开始
从目标开始是一种结果导向的思维方式,提醒人们在实施之前先明确行动的最终目的,意思是“当你不做的时候”。不忘初心,你一定会成功。”数据中心的最终目标是支持业务系统的持续运行。在承担数据中心的运维任务之前,我们首先需要明确自己的业务连续性目标,然后制定相应的运维策略和应对措施。
2.以人为本
70%的数据中心错误是由人造成的。同时,即使拥有最先进的监控系统,数据中心的主动维护和应急响应活动仍然需要依赖人员的最终决策和行动。因此,拥有足够、负责、经验丰富的人员对于数据中心的安全运行非常重要。
3.培训和学习
学习是实践的一种形式。有句话说“最好的运维团队是在犯了足够多的错误之后才培养出来的”。数据中心基础设施涉及电力、暖通、弱电、消防、建筑等多个专业,对于数据中心运维团队来说,知识点非常多,专业知识需要学习。同时,每个数据中心的具体配置和操作流程都不同。因此,培训和学习必须成为运维团队管理的重要组成部分。
4.建立管理体系
数据中心基础设施管理的运维管理对象包括整个庞大的基础设施、运维团队以及其他服务对象(IT部门或IDC客户)。这是一项高度系统化的任务。有必要建立管理体系。整个运维管理体系中最重要的三个方面是设备维护体系、与各相关部门的沟通机制以及支撑整体管理的财务预算体系。
5.标准化操作流程
任何标准化的企业管理活动都不可避免地需要流程的引入,数据中心运维管理也不例外。完全基于个人经验和判断的活动往往会带来巨大的失败风险。数据中心就是加强流程管理。所有重要操作都必须正确执行。建立流程文化是数据中心标准化管理的重要组成部分。数据中心中最重要的三个流程是标准操作程序(SOP)、维护操作程序(MOP)和紧急响应程序(EOP)。
6.动态管控
数据中心除了前面提到的管理系统和操作流程等相对静态的工作外,还需要动态管控。近年来,IT负载的动态性变得越来越明显。一方面,IT设备增长速度较快。启动新的业务系统可能会导致短期内IT负载大幅增加。另一方面,企业广泛采用虚拟化技术后,机房每个机柜的IT负载在一天之内就会发生巨大的变化。基础设施运营和维护团队需要制定与IT负载的动态特性相对应的对策。
7.持续改进
大型数据中心的出现只是最近几年的事情。数据中心一旦超过一定规模,管理就变得复杂,超越初期单纯依靠少数运维人员职责的时期,需要的是一套完整的管理思路和方法。国内数据中心基础设施运维体系的成熟度大致在三个层面:基础层面、成长层面、文化层面。
8.使用运维管理工具
实践证明,使用优秀的运维管理系统可以显着提高管理效率。运维管理。可以简化运维流程,并且可以为每个运维事件设置时间限制。监督运维工程师解决错误。此外,运维管理人员可以通过PC或移动终端随时监控运维事件的进展情况。运维管理工具的知识库、配置管理、拓扑图、监控管理等功能也是提高运维效率的有效功能。
关于运维体系建设有没有什么好点的建议?

IT运维作为公司数字化转型的重要工具,其效率将直接影响业务的正常运营。从传统运维向智能运维的转变,实际上就是运维数字化的过程。维护。在构建智能运维的过程中,究竟是平台优先还是场景优先,一直是困扰很多企业用户的难题。如果用户对自己的数据情况非常清楚,希望打破数据孤岛,建立统一的运维数据平台,可以优先考虑平台建设;如果用户清楚地了解底层平台所需要的能力,并希望其能够直接提供商业价值。您可以优先考虑场景构建。



例如城市商业银行目前最大的问题只能是监控性能低下,误报、漏报较多。我们可以从集中式告警入手,利用算法去重、降噪,然后检查相关告警之间的有效告警场景,筛选出最有可能影响业务的问题。在提高了报警处理效率后,通过分析报警来源,并以智能异常检测替代,可以进一步解决监控指标静态阈值设置不准确的问,从而从根本上提高监控效率。这就是场景化的智能运维。

智能运维建设可根据用户的实际运维情况同步、分步进行。青创根据以往的经验,总结出“三原则、六步骤”的最佳实践方案。我们可以首先通过集中智能改造监控、智能改造指标监控和日志异常检测(弥补监控手段的不足)来提高实时数据、处理能力,然后通过智能故障排除来提高后期数据分析和处理能力(根本原因分析与定位)、智能识管理(知识图谱)和错误自愈。

就个别企业的说法,是不是运维成熟度不高就不敢考虑智能化运维?

运维成熟度高的企业可以根据计算能力维度进行统一规划、分级实施,实现运维数据从本地集中到跨域集中,即建立运营和维护第一。大数据平台通过加强数据管理、优化数据质量,进而转向基于算法的统计分析乃至实时流式传输,构建多元化的智能运维场景,层层实现运维智能化功能的构建。

但是,这种方法并不普遍适用。对于还不是很成熟的企业来说,他们迫切需要的是解决实际的运维问题,而智能运维此时应该能够解决实际问题。可以根据客户当前运营成熟度选择特定应用场景并根据不同路线图进行构建的工具。这是智能运维备的能力。智能运维的本质是逐步提高运维数据的分析处理能力。