很多人还不了解大数据平台的数据分析方法,也不知道在数据平台中实现大数据分析服务需要哪些步骤。
1搭建大数据平台的步骤:安装Linux系统一般以RedHatSystem为中心的操作系统作为基础平台。
2.为了提供稳定的硬件基础,在硬盘工作和安装数据存储节点时,需要根据情况配置RAID。
3
4Hadoop的核心是分布式文件系统HDFS。5.基于它的常用组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。使用开源组件的优点:1)用户多,很多bug都可以在网上找到答案(这通常是开发中最耗时的部分)。
6
7。8.9.数据导入工具是Sqoop。
10使用它将数据从文件或传统数据库导入到分布式平台中[通常导入到Hive中,但也可以将数据导入到Hbase中]。
11
12。数据预处理是进一步建模分析的闭包。13.这个过程可以使用HiveSQL、SparkQL和Impala。
14数据建模分析是对预处理得到的特征/数据进行建模,以获得期望的结果。
15是在该领域使用的最好的Spark。
朴素贝叶斯、逻辑回归、决策、神经网络、TFIDF、协同过滤等16种常用的机器学习算法已经在MLlib中,调用起来更方便。17.5.结果可视化和结果API视图一般显示结果或部分原始数据。
18一般有两种模式,行数据显示和列搜索显示。
19根据大数据平台的不同,需要使用ElasticSearch和Hbase。
20Hbase提供快速的“ms级”行搜索。
21ElasticSearch可以实现列索引并提供快速的列搜索。
系统稳定性。24.
25在实际的2B应用中,有时需要添加或删除机器来满足新的需求。
26如何在保持原有功能的情况下快速扩展平台是实际应用中的常见问题。
上一篇:win10调整虚拟内存
下一篇:云计算数据中心的运维管理