当前位置:首页 > 数据中心 > 正文

数据中心基本组成部分(数据中心的主要组成部分有哪些)

数据中心是什么?其结构和工作原理是怎样的呢?

数据中心是场所、工具、流程等的有机组合,企业的业务和数据资源在这里进行集中、集成、共享和分析。从应用层面,包括基于数据仓库的业务和分析;从数据层面来看,包括运营数据和分析数据,以及数据和数据整合/整合过程;从基础设施层面来看,包括服务器、、存储和通用IT运维服务。
数据中心的建设目标是:1、建设公司总部和网省公司两级数据中心,逐步实现数据和业务的集中;
2.建立企业数据仓库,提供丰富的数据分析和展示功能,3.实现数据的唯一性和共享,4.建立统一的安全体系,保证数据和业务的访问安全,5.结合数据建设完善数据交换,实现两级数据中心;6、实现、硬件、存储设备、数据、业务和管理流程、IT采购流程和数据交换流程的统一集中;7、统一的信息管理模式和统一的技术架构,可快速落地。实施各类IT,提高管理能力。
数据中心部署在总部和省级。两级数据中心通过数据交换平台进行数据级联。
数据中心的逻辑架构包括:应用架构、数据架构、执行架构、基础设施(物理架构)、安全架构、运维架构。
应用架构:应用架构是指数据中心支持的所有应用的部署以及它们之间的关系。
数据架构:数据架构是指各应用模块的数据组成、相互关系、存储方式,以及数据标准和数据处理与控制。
执行架构:执行架构是指数据仓库运行时的关键功能和服务流程,主要包括ETL(数据获取和集成)架构和数据访问架构。
基础设施(物理架构):为上层应用(主要包括服务器、、存储等硬件设施)提供硬件支撑的平台。
安全架构:安全架构涵盖了数据中心的各个部分,包括运维、应用、数据、基础设施等,是指在方面提供全面安全的所有服务和技术工具的总和软硬件。
运维架构:运维架构面向企业信息管理者,构建整个信息的统一管理平台,并提供相关的管理维护工具,如管理平台、数据备份工具等及相关管理流程。
获取和集成数据也称为ETL(Extract、Transact、Load)。确定数据集市模型并分析数据源后,根据分析结果,从应用程序中提取主题相关信息,并根据数据中心各存储组件的需求交换和加载原始业务数据。数据采集​​和集成主要分为三个步骤:数据提取、数据转换和数据加载。
ETL的质量
直接影响数据市场的数据质量。
数据仓库区是专门对公司数据集成和数据历史存储需求而组织的集中、集成的数据存储区域。数据仓库由涵盖多个主题领域的公司信息组成。这些信息主要是低级、细粒度的数据。同时,可以根据数据分析需要,建立一定粒度的汇总数据。它们以一定的频率定期更新,主要用于为数据集市提供高质量的综合数据。数据仓库专注于数据的存储和集成。
数据集市是对特定主题领域、部门或用户分类的一组特定数据。该数据必须对用户的快速访问和数据输出进行优化。可以通过对数据结构进行汇总和索引来实现优化。Datamars可以确保数据仓库的高可用性、可扩展性和性能

数据中心的组成是什么

数据中心可以分为多层。层的可用性和实施​​成本。第四级的设备防护等级,技术成本也。需要注意的是,在某些设备中,可能会根据不同的区域和房间有不同的防护级别。例如,Tier4数据中心可能有一些区域需要Tier4保护,而其他区域只需要Tier3、Tier2甚至Tier1来提供一些不需要高可用性的基础应用服务。它们有不同的标准,其中TIA-942是电信工业协会的标准。

数据中心是什么?其结构和工作原理是怎样的呢?

我一直想整理一下这个内容。因为只是闲聊,所以我就说说我的想法吧。就互联网业务而言,我一直从事互联网业务。首先简单概述一下数据仓库和数据平台在互联网行业的使用:整合公司所有业务数据,建立统一的数据中心;提供各种报告,一些为高级管理层,一些为每个公司;为网站运营提供运营数据支持,就是利用数据让运营及时了解网站和产品的运营效果;为各项业务提供线上或线下的数据支持,成为公司统一的数据交换和交付平台;通过数据挖掘分析用户行为数据,降低成本。成本提​​高效果;例如有对性的精准广告、个性化的用户推荐等;开发计算机产品直接或间接为公司;搭建数据平台,企业数据;。。。。。上面列出的内容看起来和传统行业中数据仓库的使用类似,都要求数据仓库/数据平台具有良好的稳定性和可靠性;但在互联网行业,除了数据量大之外,还有越来越多的公司要求时效性,很多甚至要求实时性。另外,互联网行业的业务变化非常快。不可能像传统行业那样采用自上而下的方式一劳永逸地建立数据仓库,它要求新业务能够快速集成到数据仓库中,并且旧的线下业务可以轻松地从数据仓库中下线。现有的数据仓库;事实上,互联网行业的数据仓库就是所谓的敏捷数据仓库,不仅要求对数据快速响应,还要求对业务快速响应;构建敏捷数据仓库,除了架构技术的要求之外,还有一个非常重要的方面,那就是数据建模。你从头开始,想要构建一套兼容所有数据和业务的数据模型,我们就得回到传统数据仓库的构建,很难满足快速响应的需求。业务变化。为了应对这种情况,一般需要先对持久化的核心业务进行彻底的建模(例如:基于网站日志的网站统计分析模型和用户浏览模型;基于公司核心用户数据的用户模型)),而其他业务通常使用维度+宽表来构建数据模型。这是以后的故事。整体架构下图是我们目前使用的计算平台的架构图。其实大部分公司应该都是类似的:图片描述。逻辑上一般有数据采集层、数据存储与分析层、数据共享层和数据应用层。。名称可能不同,但角色本质上是相同的。我们从下往上看:数据采集数据采集层的任务就是将各个数据源的数据采集并存储到数据存储中,在这里可以进行简单的清洗。数据源有多种类型:网站日志:作为互联网行业,网站日志占比。网站日志存储在多个网站日志服务器上。Flumeagent通常部署在每个站点日志服务器上,实时收集站点日志并存储在HDFS上;企业数据库:业务数据库也有很多种类型,包括Mysql、Oracle、SqlServer等,目前我们迫切需要一个可以将不同数据库的数据同步到HDFS的工具,Sqoop可以,但是Sqoop太重了,而且不管数据量大,必须启动MapReduce执行,并且Hadoop集群中的每台机器都必须能够访问业务数据库;应对这种场景,开源的DataX是一个很好的解决方案(参见文章《异构数据源海量数据交换工具-TaobaoDataX与使用》)。如果有资源的话,可以基于DataX进行二次开发,这将是一个非常好的解决方案。我们目前也使用DataHub。Flume当然也可以通过配置和开发将数据从数据库实时同步到HDFS。Ftp/Http的数据来源:可能有一些合作伙伴提供的数据,必须通过Ftp/Http等定期获取,DataX也可以满足这个需求;其他数据源:比如一些手动输入的数据,只需要输入一个界面或者一个小程序,就可以完成;数据存储和分析毫无疑问,HDFS是大数据环境下数据仓库/数据平台最完美的数据存储解决方案。离线数据分析计算,即对实时性要求不高的部分,我认为Hive仍然是首选,数据类型丰富,内置功能;ORC文件存储格式,具有极高的压缩比;非常方便的SQL支持使得Hive基于结构化数据的统计分析效率远高于MapReduce。一条SQL就可以完成需求,开发MR可能需要几百行代码;使用Hadoop框架自然也提供了MapReduce接口。如果你真的愿意开发Java,或者不熟悉SQL,也可以使用MapReduce进行分析计算,Spark这两年非常流行。