当前位置：首页 > 内存 > 正文

spark内存要多大

内存
2024-06-07 17:25:43
1792

一、spark和hadoop分页适用于什么场景Hadoop/MapReduce和Spark最适合离线数据分析，但是Hadoop特别适合单次分析的数据量“大”的场景，而Spark适合数据量不是很大的场景。这里所说的“大”是指整个集群的内存容量，因为Spark需要将数据保存在内存中。一般来说，小于1TB的数据量不能被视为非常大，而超过10TB的数据量则被视为“非常大”。例如，对于一个20节点的集群（集群规模在大数据中被认为很小），每个节点有64GB内存（不是很小，但也不是很大），总共1.28TB。对于这样大小的集群来说，内存中拥有大约500GB的数据是非常容易的。这时候Spark的执行速度就会比Hadoop更快。毕竟，在MapReduce过程中，溢出等操作必须写入磁盘。
这里需要注意两点：
1）一般情况下，对于中小型互联网应用和企业级大数据应用，单独分析的数量不会太大。“太大”，所以可以优先使用Spark，特别是当Spark成熟时（Hadoop已经发布到2.5，Spark刚刚发布1.0）。例如，对于区域性的中国移动（在企业（手机公司的数据量还是很大的），你一次分析的数据量一般只有几百GB，很少超过1TB，更不用说1TB超过10TB了，所以可以考虑使用Spark来逐步取代Hadoopbr/>2）企业普遍认为Spark更适合机器学习这样的“迭代”应用，但这只是一般意义上的“更多”，对于中等规模的数据量，甚至不属于迭代型应用“最合适”类别可以快大约2到5倍我自己用80GB的压缩数据（解压后超过200GB）、10个节点的组大小以及运行类似于“sum”的应用程序进行了比较测试。+group-by"."，MapReduce需要5分钟，而它只需要Spark。花了2分钟。

二、大疆晓spark支持多大呢?sd卡Spark支持最大容量为64GB的MicroSD卡，传输速度等级为Class10或更高或UHS-1。
Spark推荐存储卡列表：
Sandisk16/32GBUHS-1MicroSDHC;
Kingston16/32GBUHS-1MicroSDHC;
Samsung16/32GBUHS-IMicroSDHC;
Sandisk64GBUHS-1MicroSDXC;
/>金士顿64GBUHS-1MicroSDXC；
三星64GBUHS-IMicroSDXC。