加米谷大数据|MapReduce与Apache Spark,带你对比Hadoop( 三 )


ApacheSpark以微批的方式执行作业 , 这些作业非常短 , 例如大约不到5秒 。 与面向实时流的Hadoop框架相比 , ApacheSpark过去一直在提供更高的稳定性方面取得了成功 。
尽管如此 , 每个硬币都有两个面 , 是的 , HadoopSpark也存在一些积压 , 例如如果中间数据大于节点的内存大小 , 则无法处理 , 节点故障时的问题 , 最重要的是成本因素 。
HadoopSpark利用日志记录(也称为“重新计算”)来提供弹性 , 以防万一发生节点故障 , 因此我们可以得出结论 , 节点故障情况下的恢复行为与以下情况相似:HadoopMapReduce除外 , 事实上恢复过程会更快 。
如果特定节点的RAM不足以存储数据分区 , Spark还具有“溢出磁盘”功能 , 从而为基于磁盘的数据处理提供了适度的降级功能 。
HadoopMapReduce相对于ApacheSpark的一大优势是 , 如果数据大小大于内存 , 则在这种情况下 , ApacheSpark将无法利用其缓存 , 并且很有可能比它慢得多 。 MapReduce的批处理 。
困惑的Hadoop与Spark–选择哪一个?
如果让您对HadoopMapReduce或ApacheSpark感到困惑的问题 , 或者说是选择基于磁盘的计算或基于RAM的计算 , 那么这个问题的答案很简单 。 这全都取决于并且这个决定所依赖的变量会随着时间而动态变化 。
但是 , 当前的趋势支持诸如ApacheSpark之类的内存技术 , 因为行业趋势似乎正在为其提供积极的反馈 。 因此 , 总而言之 , 我们可以说 , 选择HadoopMapReduce与ApacheSpark取决于基于用户的情况 , 我们无法做出自主选择 。