当前位置:首页 > 数据中心 > 正文

数据中心建设实施方案(小型数据中心建设方案)

数据中心是什么?其结构和工作原理是怎样的呢?

我一直想整理一下这个内容。因为只是闲聊,所以我就说说我的想法吧。就互联网业务而言,我一直从事互联网业务。首先简单概述一下数据仓库和数据平台在互联网行业的使用:整合公司所有业务数据,建立统一的数据中心;提供各种报告,一些为高级管理层,一些为每个公司;为网站运营提供运营数据支持,是利用数据让运营及时了解网站和产品的运营效果;为各业务提供线上或线下数据支持,成为公司统一的数据交换和交付平台;通过数据挖掘分析用户行为数据,降低成本。成本提​​高效果;例如有对性的精准广告、个性化的用户推荐等;开发计算机产品直接或间接为公司;搭建数据平台,企业数据;。。。。。上面列出的内容看起来和传统行业中数据仓库的使用类似,都要求数据仓库/数据平台具有良好的稳定性和可靠性;但在互联网行业,除了数据量大之外,还有越来越多的公司要求时效性,很多甚至要求实时性。另外,互联网行业的业务变化非常快。不可能像传统行业那样采用自上而下的方式一劳永逸地建立数据仓库,它要求新业务能够快速集成到数据仓库中,并且旧的线下业务可以轻松地从数据仓库中下线。现有的数据仓库;事实上,互联网行业的数据仓库就是所谓的敏捷数据仓库,不仅要求对数据快速响应,还要求对业务快速响应;构建敏捷数据仓库,除了架构技术的要求之外,还有一个非常重要的方面,那就是数据建模。你从头开始,想要构建一套兼容所有数据和业务的数据模型,我们就得回到传统数据仓库的构建,很难满足快速响应的需求。业务变化。应对这种情况,通常需要首先对持久化的核心业务进行彻底的建模(例如:基于网站日志的网站统计分析模型和用户浏览模型;基于公司核心用户数据的用户模型),而其他业务通常使用维度+宽表来构建数据模型。这是以后的故事。整体架构下图是我们目前使用的计算平台的架构图。其实大部分公司应该都是类似的:图片描述。逻辑上一般有数据采集层、数据存储与分析层、数据共享层和数据应用层。。名称可能不同,但角色本质上是相同的。我们从下往上看:数据采集数据采集层的任务就是将各个数据源的数据采集并存储到数据存储中,在这里可以进行简单的清洗。数据源有多种类型:网站日志:作为互联网行业,网站日志占比。网站日志存储在多个网站日志服务器上。Flumeagent通常部署在每个站点日志服务器上,实时收集站点日志并存储在HDFS上;企业数据库:业务数据库也有很多种类型,包括Mysql、Oracle、SqlServer等,目前我们迫切需要一个可以将不同数据库的数据同步到HDFS的工具,Sqoop可以,但是Sqoop太重了,而且不管数据量大,必须启动MapReduce执行,并且Hadoop集群中的每台机器都必须能够访问业务数据库;应对这种场景,开源的DataX是一个很好的解决方案(参见文章《异构数据源海量数据交换工具-TaobaoDataX与使用》)。如果有资源的话,可以基于DataX进行二次开发,这将是一个非常好的解决方案。我们目前也使用DataHub。Flume当然也可以通过配置和开发将数据从数据库实时同步到HDFS。Ftp/Http的数据来源:可能有一些合作伙伴提供的数据,必须通过Ftp/Http等定期获取,DataX也可以满足这个需求;其他数据源:比如一些手动输入的数据,只需要输入一个界面或者一个小程序,就可以完成;数据存储和分析毫无疑问,HDFS是大数据环境下数据仓库/数据平台最完美的数据存储解决方案。离线数据分析计算,即对实时性要求不高的部分,我认为Hive仍然是首选,数据类型丰富,内置功能;ORC文件存储格式,具有极高的压缩比;非常方便的SQL支持使得Hive基于结构化数据的统计分析效率远高于MapReduce。一条SQL就可以完成需求,开发MR可能需要几百行代码;使用Hadoop框架自然也提供了MapReduce接口。如果你真的愿意开发Java,或者不熟悉SQL,也可以使用MapReduce进行分析计算,Spark这两年非常流行。

石油勘探开发数据资源规划研究

文必龙吉丙玉(中石化石油勘探开发研究院信息技术研究所100083)摘要:当前各种IT规划和软件工程需要与石油勘探开发数据相结合,帮助石油企业进行数据资源规划。规定了资源管理的特点。分析了石油勘探开发数据资源管理的现状和特点,提出了面向业务的石油勘探开发数据资源规划,并提供了勘探开发业务模型、数据资源目录和数据资源构建。数据中心整体架构。,为规划石油勘探开发数据资源提供完整的方。关键词数据资源,业务驱动的商业模式,数据中心石油勘探生产研究,数据资源规划,石油数据资源管理特点需要收集内外油田的大量数据。同时,综合研究成果包含大量的数据,如各种图表和报告。为了管理和应用这些数据,各个研究部门已经开始建立与项目研究相关的数据管理。但由于缺乏统一规划,数据资源建设和管理存在数据库建设“小而散”、“复杂”、管理困难等问题;数据存储分散,数据之间逻辑关联性低,无法集成和共享;数据收集困难;缺乏专门的数据服务机制,数据应用困难。因此,有必要对油气勘探开发综合研究的勘探开发数据资源进行统一规划,即:H。进行数据管理和应用需求分析,设计数据中心建设总体方案。数据资源规划(DRP)主要基于软件工程理论和战略IT规划的各种。目前,大多数际知名IT咨询公司采用企业架构(EA)的先进理论,如TOGAF企业架构框架,制定具有自身特色的IT规划编制,并将其应用到企业规划咨询项目中,获得结果很好的结果。取得了良好的效果[1]。关于数据资源,高福贤基于信息技术方总结了一系列信息资源规划(IRP)[2]。IRP基于专业数据库的整体数据规划。它遵循一定的步骤,遵循相关标准和规范,利用有效的软件支撑工具,分析各职能领域的信息需求和数据流,制定信息资源管理的基本标准。创建整个领域和各个功能域的信息框架——功能模型、数据模型和架构模型。基于EA理论和IRP,结合油气勘探开发综合研究的特点,提出了一系列面向业务的勘探开发数据资源规划。1数据规划的基本思想数据资源规划是运用科学合理的,对数据产生和使用的相关内容、标准、技术、软件、人员、支撑条件等进行综合梳理、优化和设计。企业的生产经营过程。提出数据资源采集、传输、存储、应用和管理的综合解决方案,使企业提高数据共享水平,降低数据采集、管理和应用成本。并化数据资源的价值。数据资源规划的目的是优化企业数据管理质量。这包括改善数据交换,降低数据采集、管理和应用的成本,提高数据资源的价值。步是向公司各个层面提供相关信息。对于决策层面,提供的信息包括:存在哪些数据集、需要建设哪些数据集、数据的效果如何、是否存在重复等;对于管理来说,提供的信息包括:数据存储在哪里、谁管理、谁使用、数据质量如何?对于执行层来说,提供的信息包括:存在哪些数据、数据在哪里、如何获取数据?以及如何传达结果;对于信息服务部门,提供的信息包括:业务部门需要哪些数据以及如何使用这些数据。这些日期。数据资源规划的目标是提出数据资源建设的解决方案。通过实施方案,可以建立企业数据中心及配套建设和管理,达到数据资源规划的目的。数据资源规划