当前位置:首页 > 虚拟机 > 正文

虚拟机启动hive命令


一、hiveon矿池是哪里的

采矿是以太坊的蜂巢。

与其他区块链一样,以太坊需要数千人在计算机上运行软件来为网络提供动力。网络中的每个节点(计算机)都运行一个称为以太坊虚拟机(EVM)的软件。

将以太坊虚拟机视为一个操作系统,可以理解并执行以太坊特定编程语言中的程序。以太坊虚拟机开发的软件/应用程序称为“智能合约”。

你通常必须在这个世界的计算机上做一些事情。然而,支付不是使用美元或英镑等普通货币,而是使用网络自己的加密货币,称为以太坊。以太坊与比特币大致相同,只是以太坊允许您为退出以太坊消费者合约付费。

在以太坊上,人和智能合约都可以为用户服务。智能合约可以做人类用户所做的一切,甚至更多。


二、如何将mysql数据导入Hadoop之Sqoop安装您好,
安装skoop后,可以这样测试是否可以连接mysql(注意:mysql的jar包一定要放在SQOOP_HOME/lib下):
sqooplist-databases--connectjdbc:mysql://192.168.1.109:3306/--usernameroot--password19891231
结果如下
表示可以使用勺子了。另一个常规
需要将mysql中的数据导入到hadoop中。
我准备的是一张300万条数据的身份证数据表:
首先启动Hive(使用命令行启动:hive)
然后使用skoop将数据导入到hive中:
sqoopimport--connectjdbc:mysql://192.168.1.109:3306/hadoop--usernameroot--password19891231--tabletest_sfz--hive-im

Sqoop将开始工作以完成导入操作。
导入需要2分20才能完成;还是不错的。
可以在hive中看到导入的数据表:
我们用SQL语句测试一下数据:
select*fromtest_sfzwhereid<10;
如您所见,完成这个任务大约需要25秒;它实际上非常慢(在mysql中几乎不需要时间);但这个蜂巢在Hadoop中创造了工作;跑步需要很长时间。
接下来,我们将对这些数据进行复杂的查询测试:
我的机器配置如下:
hadoop运行在虚拟机上,伪分布式,虚拟机操作系统为ubuntu12.0464,配置如下:
TEST1计算平均年龄
测试数据:300.8W
1。计算广东平均年龄
mysql:select(sum(year(NOW()))-SUBSTRING(borth,1,4))/count(*))asageAvgefromtest_sfzwhereaddresslike'广东%';
时间:0.877s
hive:select(sum(year('2014-10-01')-SUBSTRING(birth,1,4)))/count(*))asageAvgefromtest_sfzwhereaddresslike'广东%';
时间:25.012s
2将各个城市的平均年龄从高到低排序。/>
mysql:select
address,(sum(year(NOW()))-SUBSTRING(borth,1,4))/count(*))asageAvge
fromtest_sfzGROUPBYaddressorderbyageAvgedesc/>;
时间:2.949秒
配置单元:选择
地址;(sum(year('2014-10-01')-SUBSTRING(borth,1,4))/count(*))as
ageAvgefromtest_sfzGROUPBYaddressorderbyageAvgedesc;
耗时:51.29s
可以看出,时间消耗比蜂巢的增长速度要慢。
TEST2
mysql的
测试数据:1200W
mysql引擎:MyISAM(加快查询速度)
放入hive:
1.计算广东平均年龄
mysql:select(sum(year(NOW()))-SUBSTRING(borth,1,4))/count(*))asageAvgefromtest_sfz2whereaddresslike'广东%';
时间:5.642s
hive:select(sum(year('2014-10-01')-SUBSTRING(borth,1,4))/count(*))asageAvgefromtest_sfz2whereaddresslike'广东%';
时间:168.259s
2根据高度计算各个城市的平均年龄。进入较低类型
mysql:select
地址,(sum(y


三、大数据专业主要学习哪些课程?能够快速提升大数据能力么?一、编程语言
我们需要有一定的编程语言基础。你可以先学习Java或者Pathon。我们推荐大家学习Java,因为Java已经流行了20多年,并且仍然被广泛使用。
如果你有Java基础知识,可以直接进入第二阶段的学习。
二、Linux操作系统
大数据项目最终都会部署到集群中进行运行,而集群的部署自然离不开Linux操作系统。在学习阶段,我们经常会在虚拟机上进行测试,因此需要掌握虚拟机的安装和配置。接下来介绍Linux中常用的操作命令。
三、Hadoop
本节包括两部分内容,一是HDFS,分布式文件系统。我们需要掌握如何搭建Hadoop集群以及如何使用HDFSAPI。另一个是MapReduce。MapReduce实现大数据的离线计算。我们需要掌握MapReduce编程模型和典型案例。如果我们使用Spark进行离线计算那么我们这个阶段就可以重点掌握HDFS。
四、Zookeeper
作为一个开源的分布式服务框架,在很多地方都可以看到Zookeeper的身影。无论是Hadoop集群高可用还是下一个Kafka,Zookeeper都更加重要。
五、Hive
Hive是一个基于Hadoop的数据仓库引擎,可以将结构化数据文件映射到表,并提供类似SQL的查询功能。它由Facebook开源,用于解决大型结构化日志的数据统计。
六、HBase
ApacheHBase是一个开源NoSQL数据库,提供对大型数据集的实时读/写访问。
Hbase线性缩放使其能够处理具有数十亿行和数百万列的大型数据集。
七、Kafka
Kafka是一个分布式发布订阅消息系统。它最初由LinkedIn开发,后来成为Apache项目的一部分。它允许用户订阅数据并将数据发布到任意数量的实时系统或应用程序。
八、Scala
Scala是一种集面向对象编程和函数式编程于一体的多范式编程语言。Scala运行在Java虚拟机上,可以与Java程序无缝结合并相互调用。
九、Spark
Spark有三个核心部分:SparkCore、SparkSQL和SparkStreaming。SparkCore是最基础、最核心的部分。里面有很多运算符(你可以先将它们理解为方法或函数)。利用这些算子,可以方便快捷地进行离线计算。SparkSQL可以使用类似SQL的语句来处理结构化数据。SparkStreaming用于实时数据处理。