当前位置：首页 > 云计算 > 正文

云计算学好困难吗(云计算零基础能学会吗)

云计算
2023-11-26 12:19:16
8220

大数据云计算好不好学习？

我们先来说说大数据的四个典型特征：数据量大；各种数据类型（结构化、非结构化文本、日志、、图片、地理位置等）；商业价值高，但需要基于海量数据，通过数据分析和机器学习快速挖掘；处理时效性高，海量数据的处理需求不再局限于离线计算。章：HadoopHadoop可以说是大数据存储和计算的鼻祖。现在大多数开源大数据框架都依赖于Hadoop或与其良好兼容。关于Hadoop，你至少需要了解这些是什么：先学会如何自己构建Hadoop并让它运行起来。建议先使用安装包命令行安装，而不是使用管理工具安装。现在都用Hadoop2.0。目录作命令；上传和文件命令；提交并运行MapReduce示例程序；打开HadoopWEB界面，查看作业运行状态，查看作业运行日志。了解Hadoop日志的位置。完成上述之后，你应该了解它们的原理：MapReduce：如何分而治之；HDFS：数据在哪里，什么是副本；Yarn是什么以及它能做什么；NameNode在做什么；资源管理器在哪里？该怎么办;如果有合适的学习网站，就去看讲座，如果没有或者你更喜欢书籍，也可以看书。当然，的办法是先搜索一下这些是做什么用的，大概了解之后再听。第二章：更高效的WordCount来了，一定要学好SQL，它会对你的工作有很大的帮助。就像您为WordCount编写（或）了多少行代码？但如果使用SQL就很简单了，例如：SELECTword,COUNT(1)FROMwordcountGROUPBYword;这就是SQL的魅力。编程需要几十行甚至上百行代码，但是SQL一行就可以完成；使用SQL处理和分析Hadoop数据方便、高效、易用，是一种趋势。无论是离线计算还是实时计算，越来越多的大数据处理框架正在积极提供SQL接口。另外，对于大数据来说，SQLOnHadoop的Hive是必须要学习的。什么是蜂巢？官方解释如下：ApacheHive数据仓库软件有助于读取、写入和管理驻留在分布式存储中并使用SQL语法进行查询的大型数据集。为什么说Hive是数据仓库工具而不是数据库工具呢？有些朋友可能不了解数据仓库。数据仓库是一个逻辑概念。底层使用数据库。数据仓库中的数据有这两个特点：历史数据最全（海量）且相对稳定；所谓相对稳定性，是指数据仓库不同于业务数据库。数据经常更新。数据一旦进入数据仓库，就很少会被更新或删除，只会被大量查询。Hive也具有这两个特点。因此，Hive适合作为海量数据的数据仓库工具，而不是数据库工具。了解了它的功能之后，接下来就是安装和配置Hive了。当能正常进入Hive命令行时，说明安装配置成功。了解Hive的工作原理，学习Hive的基本命令：创建、删除表；将数据加载到表中；从Hive表数据；MapReduce原理（还是经典问题，一个10G的文件，给定1G内存，如何用Java程序统计出现频率的10个单词及其频率）；HDS中数据的读写过程；PUT数据到HDFS；从HDFS数据；我可以编写一个简单的MapReduce程序，如果运行过程中出现问题，我就会知道在哪里查看日志；能编写简单的SQL语句，如Select、Where、groupby等；HiveSQL转换为MapReduce的一般流程；Hive中常用语句：创建表、删除表、加载数据到表、分区、从表数据到本地；通过上面的学习，大家了解到HDFS是Hadoop提供的分布式存储框架，可以用来存储海量数据。MapReduce是Hadoop提供的分布式计算框架，可以用于HDFS上的统计和分析。海量数据，而Hive就是SQLOnHadoop。Hive提供了SQL接口。开发者只需要编写简单易用的SQL语句即可。Hive负责将SQL翻译成MapReduce并提交运行。此时，你的“大数据平台”看起来是这样的：那么问题来了，如何将海量数据拿到HDFS上呢？第3章：数据收集将数据从各种数据源收集到Hadoop中。3.1HDFSPUT命令你应该以前用过这个命令。put命令在实际环境中也很常用，通常与shell、python等脚本语言一起使用。建议掌握一下。3.2HDFSAPIHDFS提供了写入数据的API。您可以使用编程语言将数据写入HDFS，是：