当前位置:首页 > 内存 > 正文

spark内存要多大

  • 内存
  • 2024-06-07 17:25:43
  • 1792

一、spark和hadoop分页适用于什么场景Hadoop/MapReduce和Spark最适合离线数据分析,但是Hadoop特别适合单次分析的数据量“大”的场景,而Spark适合数据量不是很大的场景。这里所说的“大”是指整个集群的内存容量,因为Spark需要将数据保存在内存中。一般来说,小于1TB的数据量不能被视为非常大,而超过10TB的数据量则被视为“非常大”。例如,对于一个20节点的集群(集群规模在大数据中被认为很小),每个节点有64GB内存(不是很小,但也不是很大),总共1.28TB。对于这样大小的集群来说,内存中拥有大约500GB的数据是非常容易的。这时候Spark的执行速度就会比Hadoop更快。毕竟,在MapReduce过程中,溢出等操作必须写入磁盘。
这里需要注意两点:
1)一般情况下,对于中小型互联网应用和企业级大数据应用,单独分析的数量不会太大。“太大”,所以可以优先使用Spark,特别是当Spark成熟时(Hadoop已经发布到2.5,Spark刚刚发布1.0)。例如,对于区域性的中国移动(在企业(手机公司的数据量还是很大的),你一次分析的数据量一般只有几百GB,很少超过1TB,更不用说1TB超过10TB了,所以可以考虑使用Spark来逐步取代Hadoopbr/>2)企业普遍认为Spark更适合机器学习这样的“迭代”应用,但这只是一般意义上的“更多”,对于中等规模的数据量,甚至不属于迭代型应用“最合适”类别可以快大约2到5倍我自己用80GB的压缩数据(解压后超过200GB)、10个节点的组大小以及运行类似于“sum”的应用程序进行了比较测试。+group-by".",MapReduce需要5分钟,而它只需要Spark。花了2分钟。
二、大疆晓spark支持多大呢?sd卡Spark支持最大容量为64GB的MicroSD卡,传输速度等级为Class10或更高或UHS-1。
Spark推荐存储卡列表:
Sandisk16/32GBUHS-1MicroSDHC;
Kingston16/32GBUHS-1MicroSDHC;
Samsung16/32GBUHS-IMicroSDHC;
Sandisk64GBUHS-1MicroSDXC;
/>金士顿64GBUHS-1MicroSDXC;
三星64GBUHS-IMicroSDXC。